libavcodec.hg: ppc/snow_altivec.c annotate

annotate ppc/snow_altivec.c @ 6920:d02af7474bff libavcodec

Prevent 128*1<<trellis from becoming 0 and creating 0 sized arrays. fixes CID84 RUN2 CID85 RUN2 CID86 RUN2 CID87 RUN2 CID88 RUN2 CID89 RUN2 CID90 RUN2 CID91 RUN2 CID92 RUN2 CID93 RUN2 CID94 RUN2 CID95 RUN2 CID96 RUN2 CID97 RUN2 CID98 RUN2 CID99 RUN2 CID100 RUN2 CID101 RUN2 CID102 RUN2 CID103 RUN2 CID104 RUN2 CID105 RUN2 CID106 RUN2

author	michael
date	Wed, 28 May 2008 11:59:41 +0000
parents	f7cbb7733146
children	a8a79f5385f6

rev	line source
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	1 /*
5749 784dcbdc910f cosmetics: Fix AltiVec spelling. diego parents: 5612 diff changeset	2 * AltiVec-optimized snow DSP utils
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	3 * Copyright (c) 2006 Luca Barbato <lu_zero@gentoo.org>
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	4 *
3947 c8c591fe26f8 Change license headers to say 'FFmpeg' instead of 'this program/this library' diego parents: 3577 diff changeset	5 * This file is part of FFmpeg.
c8c591fe26f8 Change license headers to say 'FFmpeg' instead of 'this program/this library' diego parents: 3577 diff changeset	6 *
c8c591fe26f8 Change license headers to say 'FFmpeg' instead of 'this program/this library' diego parents: 3577 diff changeset	7 * FFmpeg is free software; you can redistribute it and/or
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	8 * modify it under the terms of the GNU Lesser General Public
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	9 * License as published by the Free Software Foundation; either
3947 c8c591fe26f8 Change license headers to say 'FFmpeg' instead of 'this program/this library' diego parents: 3577 diff changeset	10 * version 2.1 of the License, or (at your option) any later version.
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	11 *
3947 c8c591fe26f8 Change license headers to say 'FFmpeg' instead of 'this program/this library' diego parents: 3577 diff changeset	12 * FFmpeg is distributed in the hope that it will be useful,
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	13 * but WITHOUT ANY WARRANTY; without even the implied warranty of
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	14 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	15 * Lesser General Public License for more details.
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	16 *
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	17 * You should have received a copy of the GNU Lesser General Public
3947 c8c591fe26f8 Change license headers to say 'FFmpeg' instead of 'this program/this library' diego parents: 3577 diff changeset	18 * License along with FFmpeg; if not, write to the Free Software
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	19 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	20 */
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	21
6763 f7cbb7733146 Use full path for #includes from another directory. diego parents: 5749 diff changeset	22 #include "libavcodec/dsputil.h"
f7cbb7733146 Use full path for #includes from another directory. diego parents: 5749 diff changeset	23 #include "libavcodec/snow.h"
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	24
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	25 #include "gcc_fixes.h"
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	26 #include "dsputil_altivec.h"
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	27
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	28 #undef NDEBUG
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	29 #include <assert.h>
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	30
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	31
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	32
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	33 //FIXME remove this replication
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	34 #define slice_buffer_get_line(slice_buf, line_num) ((slice_buf)->line[line_num] ? (slice_buf)->line[line_num] : slice_buffer_load_line((slice_buf), (line_num)))
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	35
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	36 static DWTELEM * slice_buffer_load_line(slice_buffer * buf, int line)
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	37 {
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	38 int offset;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	39 DWTELEM * buffer;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	40
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	41 // av_log(NULL, AV_LOG_DEBUG, "Cache hit: %d\n", line);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	42
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	43 assert(buf->data_stack_top >= 0);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	44 // assert(!buf->line[line]);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	45 if (buf->line[line])
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	46 return buf->line[line];
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	47
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	48 offset = buf->line_width * line;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	49 buffer = buf->data_stack[buf->data_stack_top];
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	50 buf->data_stack_top--;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	51 buf->line[line] = buffer;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	52
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	53 // av_log(NULL, AV_LOG_DEBUG, "slice_buffer_load_line: line: %d remaining: %d\n", line, buf->data_stack_top + 1);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	54
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	55 return buffer;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	56 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	57
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	58
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	59 //altivec code
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	60
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	61 void ff_snow_horizontal_compose97i_altivec(IDWTELEM *b, int width)
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	62 {
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	63 #if 0
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	64 const int w2= (width+1)>>1;
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	65 DECLARE_ALIGNED_16(IDWTELEM, temp[(width>>1)]);
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	66 const int w_l= (width>>1);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	67 const int w_r= w2 - 1;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	68 int i;
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	69 vector signed short t1, t2, x, y, tmp1, tmp2;
0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	70 vector signed short vbuf, vtmp;
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	71 vector unsigned char align;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	72
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	73 { // Lift 0
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	74 IDWTELEM * const ref = b + w2 - 1;
0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	75 IDWTELEM b_0 = b[0];
0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	76 vector signed short v7 = vec_splat_s16(7);
0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	77 vbuf = (vector signed short *)b;
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	78
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	79 tmp1 = vec_ld (0, ref);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	80 align = vec_lvsl (0, ref);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	81 tmp2 = vec_ld (15, ref);
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	82 t1 = vec_perm(tmp1, tmp2, align);
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	83
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	84 for (i=0; i<w_l-15; i+=16) {
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	85 #if 0
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	86 /* b[i+0] = b[i+0] - ((3 * (ref[i+0] + ref[i+1]) + 4) >> 3);
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	87 b[i+1] = b[i+1] - ((3 * (ref[i+1] + ref[i+2]) + 4) >> 3);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	88 b[i+2] = b[i+2] - ((3 * (ref[i+2] + ref[i+3]) + 4) >> 3);
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	89 b[i+3] = b[i+3] - ((3 * (ref[i+3] + ref[i+4]) + 4) >> 3);*/
0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	90 b[i+0] = b[i+0] + ((7 * (ref[i+0] + ref[i+1])-1) >> 8);
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	91 #else
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	92
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	93 tmp1 = vec_ld (0, ref+8+i);
0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	94 tmp2 = vec_ld (15, ref+8+i);
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	95
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	96 t2 = vec_perm(tmp1, tmp2, align);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	97
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	98 y = vec_add(t1, vec_sld(t1,t2,2));
0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	99 // y = vec_add(vec_add(y,y),y);
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	100
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	101 tmp1 = vec_ld (0, ref+12+i);
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	102
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	103 y = vec_add(y, vec_splat_s32(4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	104 y = vec_sra(y, vec_splat_u32(3));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	105
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	106 tmp2 = vec_ld (15, ref+12+i);
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	107
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	108 vbuf = vec_sub(vbuf, y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	109
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	110 t1 = t2;
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	111
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	112 vbuf++;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	113
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	114 t2 = vec_perm(tmp1, tmp2, align);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	115
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	116 y = vec_add(t1,vec_sld(t1,t2,4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	117 y = vec_add(vec_add(y,y),y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	118
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	119 tmp1 = vec_ld (0, ref+12+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	120
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	121 y = vec_add(y, vec_splat_s32(4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	122 y = vec_sra(y, vec_splat_u32(3));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	123
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	124 tmp2 = vec_ld (15, ref+12+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	125
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	126 vbuf = vec_sub(vbuf, y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	127
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	128 t1=t2;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	129
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	130 vbuf++;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	131
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	132 t2 = vec_perm(tmp1, tmp2, align);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	133
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	134 y = vec_add(t1,vec_sld(t1,t2,4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	135 y = vec_add(vec_add(y,y),y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	136
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	137 tmp1 = vec_ld (0, ref+16+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	138
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	139 y = vec_add(y, vec_splat_s32(4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	140 y = vec_sra(y, vec_splat_u32(3));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	141
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	142 tmp2 = vec_ld (15, ref+16+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	143
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	144 vbuf = vec_sub(vbuf, y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	145
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	146 t1=t2;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	147
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	148 t2 = vec_perm(tmp1, tmp2, align);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	149
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	150 y = vec_add(t1,vec_sld(t1,t2,4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	151 y = vec_add(vec_add(y,y),y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	152
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	153 vbuf++;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	154
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	155 y = vec_add(y, vec_splat_s32(4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	156 y = vec_sra(y, vec_splat_u32(3));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	157 vbuf = vec_sub(vbuf, y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	158
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	159 t1=t2;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	160
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	161 vbuf++;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	162
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	163 #endif
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	164
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	165 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	166
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	167 snow_horizontal_compose_lift_lead_out(i, b, b, ref, width, w_l, 0, W_DM, W_DO, W_DS);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	168 b[0] = b_0 - ((W_DM * 2 * ref[1]+W_DO)>>W_DS);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	169 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	170
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	171 { // Lift 1
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	172 DWTELEM * const dst = b+w2;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	173
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	174 i = 0;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	175 for(; (((long)&dst[i]) & 0xF) && i<w_r; i++){
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	176 dst[i] = dst[i] - (b[i] + b[i + 1]);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	177 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	178
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	179 align = vec_lvsl(0, b+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	180 tmp1 = vec_ld(0, b+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	181 vbuf = (vector signed int*) (dst + i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	182 tmp2 = vec_ld(15, b+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	183
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	184 t1 = vec_perm(tmp1, tmp2, align);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	185
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	186 for (; i<w_r-3; i+=4) {
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	187
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	188 #if 0
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	189 dst[i] = dst[i] - (b[i] + b[i + 1]);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	190 dst[i+1] = dst[i+1] - (b[i+1] + b[i + 2]);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	191 dst[i+2] = dst[i+2] - (b[i+2] + b[i + 3]);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	192 dst[i+3] = dst[i+3] - (b[i+3] + b[i + 4]);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	193 #else
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	194
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	195 tmp1 = vec_ld(0, b+4+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	196 tmp2 = vec_ld(15, b+4+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	197
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	198 t2 = vec_perm(tmp1, tmp2, align);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	199
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	200 y = vec_add(t1, vec_sld(t1,t2,4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	201 vbuf = vec_sub (vbuf, y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	202
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	203 vbuf++;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	204
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	205 t1 = t2;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	206
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	207 #endif
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	208
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	209 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	210
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	211 snow_horizontal_compose_lift_lead_out(i, dst, dst, b, width, w_r, 1, W_CM, W_CO, W_CS);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	212 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	213
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	214 { // Lift 2
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	215 DWTELEM * const ref = b+w2 - 1;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	216 DWTELEM b_0 = b[0];
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	217 vbuf= (vector signed int *) b;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	218
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	219 tmp1 = vec_ld (0, ref);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	220 align = vec_lvsl (0, ref);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	221 tmp2 = vec_ld (15, ref);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	222 t1= vec_perm(tmp1, tmp2, align);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	223
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	224 i = 0;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	225 for (; i<w_l-15; i+=16) {
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	226 #if 0
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	227 b[i] = b[i] - (((8 -(ref[i] + ref[i+1])) - (b[i] <<2)) >> 4);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	228 b[i+1] = b[i+1] - (((8 -(ref[i+1] + ref[i+2])) - (b[i+1]<<2)) >> 4);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	229 b[i+2] = b[i+2] - (((8 -(ref[i+2] + ref[i+3])) - (b[i+2]<<2)) >> 4);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	230 b[i+3] = b[i+3] - (((8 -(ref[i+3] + ref[i+4])) - (b[i+3]<<2)) >> 4);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	231 #else
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	232 tmp1 = vec_ld (0, ref+4+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	233 tmp2 = vec_ld (15, ref+4+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	234
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	235 t2 = vec_perm(tmp1, tmp2, align);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	236
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	237 y = vec_add(t1,vec_sld(t1,t2,4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	238 y = vec_sub(vec_splat_s32(8),y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	239
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	240 tmp1 = vec_ld (0, ref+8+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	241
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	242 x = vec_sl(*vbuf,vec_splat_u32(2));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	243 y = vec_sra(vec_sub(y,x),vec_splat_u32(4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	244
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	245 tmp2 = vec_ld (15, ref+8+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	246
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	247 vbuf = vec_sub( vbuf, y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	248
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	249 t1 = t2;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	250
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	251 vbuf++;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	252
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	253 t2 = vec_perm(tmp1, tmp2, align);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	254
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	255 y = vec_add(t1,vec_sld(t1,t2,4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	256 y = vec_sub(vec_splat_s32(8),y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	257
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	258 tmp1 = vec_ld (0, ref+12+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	259
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	260 x = vec_sl(*vbuf,vec_splat_u32(2));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	261 y = vec_sra(vec_sub(y,x),vec_splat_u32(4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	262
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	263 tmp2 = vec_ld (15, ref+12+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	264
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	265 vbuf = vec_sub( vbuf, y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	266
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	267 t1 = t2;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	268
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	269 vbuf++;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	270
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	271 t2 = vec_perm(tmp1, tmp2, align);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	272
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	273 y = vec_add(t1,vec_sld(t1,t2,4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	274 y = vec_sub(vec_splat_s32(8),y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	275
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	276 tmp1 = vec_ld (0, ref+16+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	277
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	278 x = vec_sl(*vbuf,vec_splat_u32(2));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	279 y = vec_sra(vec_sub(y,x),vec_splat_u32(4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	280
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	281 tmp2 = vec_ld (15, ref+16+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	282
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	283 vbuf = vec_sub( vbuf, y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	284
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	285 t1 = t2;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	286
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	287 vbuf++;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	288
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	289 t2 = vec_perm(tmp1, tmp2, align);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	290
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	291 y = vec_add(t1,vec_sld(t1,t2,4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	292 y = vec_sub(vec_splat_s32(8),y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	293
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	294 t1 = t2;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	295
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	296 x = vec_sl(*vbuf,vec_splat_u32(2));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	297 y = vec_sra(vec_sub(y,x),vec_splat_u32(4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	298 vbuf = vec_sub( vbuf, y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	299
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	300 vbuf++;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	301
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	302 #endif
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	303 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	304
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	305 snow_horizontal_compose_liftS_lead_out(i, b, b, ref, width, w_l);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	306 b[0] = b_0 - (((-2 * ref[1] + W_BO) - 4 * b_0) >> W_BS);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	307 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	308
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	309 { // Lift 3
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	310 DWTELEM * const src = b+w2;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	311
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	312 vbuf = (vector signed int *)b;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	313 vtmp = (vector signed int *)temp;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	314
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	315 i = 0;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	316 align = vec_lvsl(0, src);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	317
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	318 for (; i<w_r-3; i+=4) {
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	319 #if 0
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	320 temp[i] = src[i] - ((-3*(b[i] + b[i+1]))>>1);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	321 temp[i+1] = src[i+1] - ((-3*(b[i+1] + b[i+2]))>>1);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	322 temp[i+2] = src[i+2] - ((-3*(b[i+2] + b[i+3]))>>1);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	323 temp[i+3] = src[i+3] - ((-3*(b[i+3] + b[i+4]))>>1);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	324 #else
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	325 tmp1 = vec_ld(0,src+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	326 t1 = vec_add(vbuf[0],vec_sld(vbuf[0],vbuf[1],4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	327 tmp2 = vec_ld(15,src+i);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	328 t1 = vec_sub(vec_splat_s32(0),t1); //bad!
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	329 t1 = vec_add(t1,vec_add(t1,t1));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	330 t2 = vec_perm(tmp1 ,tmp2 ,align);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	331 t1 = vec_sra(t1,vec_splat_u32(1));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	332 vbuf++;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	333 *vtmp = vec_sub(t2,t1);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	334 vtmp++;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	335
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	336 #endif
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	337
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	338 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	339
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	340 snow_horizontal_compose_lift_lead_out(i, temp, src, b, width, w_r, 1, -3, 0, 1);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	341 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	342
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	343 {
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	344 //Interleave
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	345 int a;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	346 vector signed int t = (vector signed int )temp,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	347 v = (vector signed int )b;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	348
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	349 snow_interleave_line_header(&i, width, b, temp);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	350
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	351 for (; (i & 0xE) != 0xE; i-=2){
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	352 b[i+1] = temp[i>>1];
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	353 b[i] = b[i>>1];
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	354 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	355 for (i-=14; i>=0; i-=16){
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	356 a=i/4;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	357
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	358 v[a+3]=vec_mergel(v[(a>>1)+1],t[(a>>1)+1]);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	359 v[a+2]=vec_mergeh(v[(a>>1)+1],t[(a>>1)+1]);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	360 v[a+1]=vec_mergel(v[a>>1],t[a>>1]);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	361 v[a]=vec_mergeh(v[a>>1],t[a>>1]);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	362
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	363 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	364
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	365 }
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	366 #endif
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	367 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	368
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	369 void ff_snow_vertical_compose97i_altivec(DWTELEM b0, DWTELEM b1, DWTELEM b2, DWTELEM b3, DWTELEM b4, DWTELEM b5, int width)
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	370 {
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	371 int i, w4 = width/4;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	372 vector signed int v0, v1,v2,v3,v4,v5;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	373 vector signed int t1, t2;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	374
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	375 v0=(vector signed int *)b0;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	376 v1=(vector signed int *)b1;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	377 v2=(vector signed int *)b2;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	378 v3=(vector signed int *)b3;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	379 v4=(vector signed int *)b4;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	380 v5=(vector signed int *)b5;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	381
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	382 for (i=0; i< w4;i++)
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	383 {
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	384
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	385 #if 0
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	386 b4[i] -= (3*(b3[i] + b5[i])+4)>>3;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	387 b3[i] -= ((b2[i] + b4[i]));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	388 b2[i] += ((b1[i] + b3[i])+4*b2[i]+8)>>4;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	389 b1[i] += (3*(b0[i] + b2[i]))>>1;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	390 #else
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	391 t1 = vec_add(v3[i], v5[i]);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	392 t2 = vec_add(t1, vec_add(t1,t1));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	393 t1 = vec_add(t2, vec_splat_s32(4));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	394 v4[i] = vec_sub(v4[i], vec_sra(t1,vec_splat_u32(3)));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	395
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	396 v3[i] = vec_sub(v3[i], vec_add(v2[i], v4[i]));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	397
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	398 t1 = vec_add(vec_splat_s32(8), vec_add(v1[i], v3[i]));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	399 t2 = vec_sl(v2[i], vec_splat_u32(2));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	400 v2[i] = vec_add(v2[i], vec_sra(vec_add(t1,t2),vec_splat_u32(4)));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	401 t1 = vec_add(v0[i], v2[i]);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	402 t2 = vec_add(t1, vec_add(t1,t1));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	403 v1[i] = vec_add(v1[i], vec_sra(t2,vec_splat_u32(1)));
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	404
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	405 #endif
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	406 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	407
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	408 for(i*=4; i < width; i++)
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	409 {
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	410 b4[i] -= (W_DM*(b3[i] + b5[i])+W_DO)>>W_DS;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	411 b3[i] -= (W_CM*(b2[i] + b4[i])+W_CO)>>W_CS;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	412 b2[i] += (W_BM(b1[i] + b3[i])+4b2[i]+W_BO)>>W_BS;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	413 b1[i] += (W_AM*(b0[i] + b2[i])+W_AO)>>W_AS;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	414 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	415 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	416
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	417 #define LOAD_BLOCKS \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	418 tmp1 = vec_ld(0, &block[3][y*src_stride]);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	419 align = vec_lvsl(0, &block[3][y*src_stride]);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	420 tmp2 = vec_ld(15, &block[3][y*src_stride]);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	421 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	422 b3 = vec_perm(tmp1,tmp2,align);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	423 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	424 tmp1 = vec_ld(0, &block[2][y*src_stride]);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	425 align = vec_lvsl(0, &block[2][y*src_stride]);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	426 tmp2 = vec_ld(15, &block[2][y*src_stride]);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	427 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	428 b2 = vec_perm(tmp1,tmp2,align);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	429 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	430 tmp1 = vec_ld(0, &block[1][y*src_stride]);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	431 align = vec_lvsl(0, &block[1][y*src_stride]);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	432 tmp2 = vec_ld(15, &block[1][y*src_stride]);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	433 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	434 b1 = vec_perm(tmp1,tmp2,align);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	435 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	436 tmp1 = vec_ld(0, &block[0][y*src_stride]);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	437 align = vec_lvsl(0, &block[0][y*src_stride]);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	438 tmp2 = vec_ld(15, &block[0][y*src_stride]);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	439 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	440 b0 = vec_perm(tmp1,tmp2,align);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	441
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	442 #define LOAD_OBMCS \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	443 tmp1 = vec_ld(0, obmc1);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	444 align = vec_lvsl(0, obmc1);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	445 tmp2 = vec_ld(15, obmc1);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	446 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	447 ob1 = vec_perm(tmp1,tmp2,align);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	448 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	449 tmp1 = vec_ld(0, obmc2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	450 align = vec_lvsl(0, obmc2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	451 tmp2 = vec_ld(15, obmc2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	452 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	453 ob2 = vec_perm(tmp1,tmp2,align);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	454 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	455 tmp1 = vec_ld(0, obmc3);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	456 align = vec_lvsl(0, obmc3);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	457 tmp2 = vec_ld(15, obmc3);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	458 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	459 ob3 = vec_perm(tmp1,tmp2,align);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	460 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	461 tmp1 = vec_ld(0, obmc4);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	462 align = vec_lvsl(0, obmc4);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	463 tmp2 = vec_ld(15, obmc4);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	464 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	465 ob4 = vec_perm(tmp1,tmp2,align);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	466
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	467 /* interleave logic
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	468 * h1 <- [ a,b,a,b, a,b,a,b, a,b,a,b, a,b,a,b ]
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	469 * h2 <- [ c,d,c,d, c,d,c,d, c,d,c,d, c,d,c,d ]
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	470 * h <- [ a,b,c,d, a,b,c,d, a,b,c,d, a,b,c,d ]
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	471 */
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	472
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	473 #define STEPS_0_1\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	474 h1 = (vector unsigned short)\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	475 vec_mergeh(ob1, ob2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	476 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	477 h2 = (vector unsigned short)\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	478 vec_mergeh(ob3, ob4);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	479 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	480 ih = (vector unsigned char)\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	481 vec_mergeh(h1,h2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	482 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	483 l1 = (vector unsigned short) vec_mergeh(b3, b2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	484 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	485 ih1 = (vector unsigned char) vec_mergel(h1, h2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	486 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	487 l2 = (vector unsigned short) vec_mergeh(b1, b0);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	488 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	489 il = (vector unsigned char) vec_mergeh(l1, l2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	490 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	491 v[0] = (vector signed int) vec_msum(ih, il, vec_splat_u32(0));\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	492 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	493 il1 = (vector unsigned char) vec_mergel(l1, l2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	494 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	495 v[1] = (vector signed int) vec_msum(ih1, il1, vec_splat_u32(0));
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	496
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	497 #define FINAL_STEP_SCALAR\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	498 for(x=0; x<b_w; x++)\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	499 if(add){\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	500 vbuf[x] += dst[x + src_x];\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	501 vbuf[x] = (vbuf[x] + (1<<(FRAC_BITS-1))) >> FRAC_BITS;\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	502 if(vbuf[x]&(~255)) vbuf[x]= ~(vbuf[x]>>31);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	503 dst8[x + y*src_stride] = vbuf[x];\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	504 }else{\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	505 dst[x + src_x] -= vbuf[x];\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	506 }
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	507
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	508 static void inner_add_yblock_bw_8_obmc_16_altivec(uint8_t *obmc,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	509 const int obmc_stride,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	510 uint8_t * * block, int b_w,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	511 int b_h, int src_x, int src_y,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	512 int src_stride, slice_buffer * sb,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	513 int add, uint8_t * dst8)
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	514 {
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	515 int y, x;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	516 DWTELEM * dst;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	517 vector unsigned short h1, h2, l1, l2;
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	518 vector unsigned char ih, il, ih1, il1, tmp1, tmp2, align;
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	519 vector unsigned char b0,b1,b2,b3;
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	520 vector unsigned char ob1,ob2,ob3,ob4;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	521
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	522 DECLARE_ALIGNED_16(int, vbuf[16]);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	523 vector signed int v = (vector signed int )vbuf, *d;
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	524
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	525 for(y=0; y<b_h; y++){
5409 13d52b7647a0 Ahem, fix typos overlooked in last commit. diego parents: 5408 diff changeset	526 //FIXME ugly misuse of obmc_stride
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	527
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	528 uint8_t obmc1= obmc + yobmc_stride;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	529 uint8_t *obmc2= obmc1+ (obmc_stride>>1);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	530 uint8_t obmc3= obmc1+ obmc_stride(obmc_stride>>1);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	531 uint8_t *obmc4= obmc3+ (obmc_stride>>1);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	532
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	533 dst = slice_buffer_get_line(sb, src_y + y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	534 d = (vector signed int *)(dst + src_x);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	535
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	536 //FIXME i could avoid some loads!
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	537
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	538 // load blocks
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	539 LOAD_BLOCKS
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	540
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	541 // load obmcs
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	542 LOAD_OBMCS
3271 e5349b5289d4 40% faster decode lu_zero parents: 3237 diff changeset	543
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	544 // steps 0 1
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	545 STEPS_0_1
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	546
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	547 FINAL_STEP_SCALAR
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	548
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	549 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	550
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	551 }
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	552
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	553 #define STEPS_2_3\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	554 h1 = (vector unsigned short) vec_mergel(ob1, ob2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	555 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	556 h2 = (vector unsigned short) vec_mergel(ob3, ob4);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	557 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	558 ih = (vector unsigned char) vec_mergeh(h1,h2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	559 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	560 l1 = (vector unsigned short) vec_mergel(b3, b2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	561 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	562 l2 = (vector unsigned short) vec_mergel(b1, b0);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	563 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	564 ih1 = (vector unsigned char) vec_mergel(h1,h2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	565 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	566 il = (vector unsigned char) vec_mergeh(l1,l2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	567 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	568 v[2] = (vector signed int) vec_msum(ih, il, vec_splat_u32(0));\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	569 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	570 il1 = (vector unsigned char) vec_mergel(l1,l2);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	571 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	572 v[3] = (vector signed int) vec_msum(ih1, il1, vec_splat_u32(0));
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	573
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	574
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	575 static void inner_add_yblock_bw_16_obmc_32_altivec(uint8_t *obmc,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	576 const int obmc_stride,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	577 uint8_t * * block, int b_w,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	578 int b_h, int src_x, int src_y,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	579 int src_stride, slice_buffer * sb,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	580 int add, uint8_t * dst8)
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	581 {
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	582 int y, x;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	583 DWTELEM * dst;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	584 vector unsigned short h1, h2, l1, l2;
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	585 vector unsigned char ih, il, ih1, il1, tmp1, tmp2, align;
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	586 vector unsigned char b0,b1,b2,b3;
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	587 vector unsigned char ob1,ob2,ob3,ob4;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	588 DECLARE_ALIGNED_16(int, vbuf[b_w]);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	589 vector signed int v = (vector signed int )vbuf, *d;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	590
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	591 for(y=0; y<b_h; y++){
5409 13d52b7647a0 Ahem, fix typos overlooked in last commit. diego parents: 5408 diff changeset	592 //FIXME ugly misuse of obmc_stride
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	593
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	594 uint8_t obmc1= obmc + yobmc_stride;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	595 uint8_t *obmc2= obmc1+ (obmc_stride>>1);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	596 uint8_t obmc3= obmc1+ obmc_stride(obmc_stride>>1);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	597 uint8_t *obmc4= obmc3+ (obmc_stride>>1);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	598
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	599 dst = slice_buffer_get_line(sb, src_y + y);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	600 d = (vector signed int *)(dst + src_x);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	601
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	602 // load blocks
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	603 LOAD_BLOCKS
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	604
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	605 // load obmcs
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	606 LOAD_OBMCS
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	607
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	608 // steps 0 1 2 3
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	609 STEPS_0_1
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	610
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	611 STEPS_2_3
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	612
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	613 FINAL_STEP_SCALAR
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	614
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	615 }
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	616 }
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	617
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	618 #define FINAL_STEP_VEC \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	619 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	620 if(add)\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	621 {\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	622 for(x=0; x<b_w/4; x++)\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	623 {\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	624 v[x] = vec_add(v[x], d[x]);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	625 v[x] = vec_sra(vec_add(v[x],\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	626 vec_sl( vec_splat_s32(1),\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	627 vec_splat_u32(7))),\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	628 vec_splat_u32(8));\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	629 \
3288 95f50b66e0b1 Macosx fix lu_zero parents: 3272 diff changeset	630 mask = (vector bool int) vec_sl((vector signed int)\
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	631 vec_cmpeq(v[x],v[x]),vec_splat_u32(8));\
3288 95f50b66e0b1 Macosx fix lu_zero parents: 3272 diff changeset	632 mask = (vector bool int) vec_and(v[x],vec_nor(mask,mask));\
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	633 \
3288 95f50b66e0b1 Macosx fix lu_zero parents: 3272 diff changeset	634 mask = (vector bool int)\
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	635 vec_cmpeq((vector signed int)mask,\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	636 (vector signed int)vec_splat_u32(0));\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	637 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	638 vs = vec_sra(v[x],vec_splat_u32(8));\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	639 vs = vec_sra(v[x],vec_splat_u32(8));\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	640 vs = vec_sra(v[x],vec_splat_u32(15));\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	641 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	642 vs = vec_nor(vs,vs);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	643 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	644 v[x]= vec_sel(v[x],vs,mask);\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	645 }\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	646 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	647 for(x=0; x<b_w; x++)\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	648 dst8[x + y*src_stride] = vbuf[x];\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	649 \
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	650 }\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	651 else\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	652 for(x=0; x<b_w/4; x++)\
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	653 d[x] = vec_sub(d[x], v[x]);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	654
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	655 static void inner_add_yblock_a_bw_8_obmc_16_altivec(uint8_t *obmc,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	656 const int obmc_stride,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	657 uint8_t * * block, int b_w,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	658 int b_h, int src_x, int src_y,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	659 int src_stride, slice_buffer * sb,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	660 int add, uint8_t * dst8)
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	661 {
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	662 int y, x;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	663 DWTELEM * dst;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	664 vector bool int mask;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	665 vector signed int vs;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	666 vector unsigned short h1, h2, l1, l2;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	667 vector unsigned char ih, il, ih1, il1, tmp1, tmp2, align;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	668 vector unsigned char b0,b1,b2,b3;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	669 vector unsigned char ob1,ob2,ob3,ob4;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	670
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	671 DECLARE_ALIGNED_16(int, vbuf[16]);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	672 vector signed int v = (vector signed int )vbuf, *d;
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	673
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	674 for(y=0; y<b_h; y++){
5409 13d52b7647a0 Ahem, fix typos overlooked in last commit. diego parents: 5408 diff changeset	675 //FIXME ugly misuse of obmc_stride
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	676
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	677 uint8_t obmc1= obmc + yobmc_stride;
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	678 uint8_t *obmc2= obmc1+ (obmc_stride>>1);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	679 uint8_t obmc3= obmc1+ obmc_stride(obmc_stride>>1);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	680 uint8_t *obmc4= obmc3+ (obmc_stride>>1);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	681
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	682 dst = slice_buffer_get_line(sb, src_y + y);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	683 d = (vector signed int *)(dst + src_x);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	684
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	685 //FIXME i could avoid some loads!
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	686
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	687 // load blocks
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	688 LOAD_BLOCKS
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	689
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	690 // load obmcs
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	691 LOAD_OBMCS
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	692
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	693 // steps 0 1
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	694 STEPS_0_1
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	695
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	696 FINAL_STEP_VEC
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	697
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	698 }
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	699
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	700 }
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	701
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	702 static void inner_add_yblock_a_bw_16_obmc_32_altivec(uint8_t *obmc,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	703 const int obmc_stride,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	704 uint8_t * * block, int b_w,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	705 int b_h, int src_x, int src_y,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	706 int src_stride, slice_buffer * sb,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	707 int add, uint8_t * dst8)
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	708 {
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	709 int y, x;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	710 DWTELEM * dst;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	711 vector bool int mask;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	712 vector signed int vs;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	713 vector unsigned short h1, h2, l1, l2;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	714 vector unsigned char ih, il, ih1, il1, tmp1, tmp2, align;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	715 vector unsigned char b0,b1,b2,b3;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	716 vector unsigned char ob1,ob2,ob3,ob4;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	717 DECLARE_ALIGNED_16(int, vbuf[b_w]);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	718 vector signed int v = (vector signed int )vbuf, *d;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	719
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	720 for(y=0; y<b_h; y++){
5409 13d52b7647a0 Ahem, fix typos overlooked in last commit. diego parents: 5408 diff changeset	721 //FIXME ugly misuse of obmc_stride
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	722
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	723 uint8_t obmc1= obmc + yobmc_stride;
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	724 uint8_t *obmc2= obmc1+ (obmc_stride>>1);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	725 uint8_t obmc3= obmc1+ obmc_stride(obmc_stride>>1);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	726 uint8_t *obmc4= obmc3+ (obmc_stride>>1);
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	727
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	728 dst = slice_buffer_get_line(sb, src_y + y);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	729 d = (vector signed int *)(dst + src_x);
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	730
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	731 // load blocks
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	732 LOAD_BLOCKS
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	733
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	734 // load obmcs
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	735 LOAD_OBMCS
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	736
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	737 // steps 0 1 2 3
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	738 STEPS_0_1
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	739
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	740 STEPS_2_3
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	741
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	742 FINAL_STEP_VEC
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	743
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	744 }
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	745 }
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	746
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	747
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	748 void ff_snow_inner_add_yblock_altivec(uint8_t *obmc, const int obmc_stride,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	749 uint8_t * * block, int b_w, int b_h,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	750 int src_x, int src_y, int src_stride,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	751 slice_buffer * sb, int add,
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	752 uint8_t * dst8)
38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	753 {
3272 b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	754 if (src_x&15) {
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	755 if (b_w == 16)
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	756 inner_add_yblock_bw_16_obmc_32_altivec(obmc, obmc_stride, block,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	757 b_w, b_h, src_x, src_y,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	758 src_stride, sb, add, dst8);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	759 else if (b_w == 8)
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	760 inner_add_yblock_bw_8_obmc_16_altivec(obmc, obmc_stride, block,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	761 b_w, b_h, src_x, src_y,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	762 src_stride, sb, add, dst8);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	763 else
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	764 ff_snow_inner_add_yblock(obmc, obmc_stride, block, b_w, b_h, src_x,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	765 src_y, src_stride, sb, add, dst8);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	766 } else {
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	767 if (b_w == 16)
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	768 inner_add_yblock_a_bw_16_obmc_32_altivec(obmc, obmc_stride, block,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	769 b_w, b_h, src_x, src_y,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	770 src_stride, sb, add, dst8);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	771 else if (b_w == 8)
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	772 inner_add_yblock_a_bw_8_obmc_16_altivec(obmc, obmc_stride, block,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	773 b_w, b_h, src_x, src_y,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	774 src_stride, sb, add, dst8);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	775 else
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	776 ff_snow_inner_add_yblock(obmc, obmc_stride, block, b_w, b_h, src_x,
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	777 src_y, src_stride, sb, add, dst8);
b2a0cb3561b3 13% faster inner_add_yblock lu_zero parents: 3271 diff changeset	778 }
3222 38ee2f1d386d altivec support for snow lu_zero parents: diff changeset	779 }
3547 e542c9978077 standalone snow dsputil init lu_zero parents: 3288 diff changeset	780
e542c9978077 standalone snow dsputil init lu_zero parents: 3288 diff changeset	781
e542c9978077 standalone snow dsputil init lu_zero parents: 3288 diff changeset	782 void snow_init_altivec(DSPContext* c, AVCodecContext *avctx)
e542c9978077 standalone snow dsputil init lu_zero parents: 3288 diff changeset	783 {
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	784 #if 0
3547 e542c9978077 standalone snow dsputil init lu_zero parents: 3288 diff changeset	785 c->horizontal_compose97i = ff_snow_horizontal_compose97i_altivec;
e542c9978077 standalone snow dsputil init lu_zero parents: 3288 diff changeset	786 c->vertical_compose97i = ff_snow_vertical_compose97i_altivec;
e542c9978077 standalone snow dsputil init lu_zero parents: 3288 diff changeset	787 c->inner_add_yblock = ff_snow_inner_add_yblock_altivec;
5612 0ffea9729a0d snow altivec is broken lu_zero parents: 5409 diff changeset	788 #endif
3547 e542c9978077 standalone snow dsputil init lu_zero parents: 3288 diff changeset	789 }

Mercurial > libavcodec.hg

annotate ppc/snow_altivec.c @ 6920:d02af7474bff libavcodec