forked from Minki/linux
c8bf850e99
Instead of falling back to C code to deal with the final bit of input that is not a round multiple of the block size, handle this in the asm code, permitting us to use overlapping loads and stores for performance, and implement the 16-byte wide XOR using a single NEON instruction. Since NEON loads and stores have a natural width of 16 bytes, we need to handle inputs of less than 16 bytes in a special way, but this rarely occurs in practice so it does not impact performance. All other input sizes can be consumed directly by the NEON asm code, although it should be noted that the core AES transform can still only process 128 bytes (8 AES blocks) at a time. Signed-off-by: Ard Biesheuvel <ardb@kernel.org> Signed-off-by: Herbert Xu <herbert@gondor.apana.org.au>
1044 lines
22 KiB
ArmAsm
1044 lines
22 KiB
ArmAsm
/* SPDX-License-Identifier: GPL-2.0-only */
|
|
/*
|
|
* Bit sliced AES using NEON instructions
|
|
*
|
|
* Copyright (C) 2017 Linaro Ltd.
|
|
* Author: Ard Biesheuvel <ard.biesheuvel@linaro.org>
|
|
*/
|
|
|
|
/*
|
|
* The algorithm implemented here is described in detail by the paper
|
|
* 'Faster and Timing-Attack Resistant AES-GCM' by Emilia Kaesper and
|
|
* Peter Schwabe (https://eprint.iacr.org/2009/129.pdf)
|
|
*
|
|
* This implementation is based primarily on the OpenSSL implementation
|
|
* for 32-bit ARM written by Andy Polyakov <appro@openssl.org>
|
|
*/
|
|
|
|
#include <linux/linkage.h>
|
|
#include <asm/assembler.h>
|
|
|
|
.text
|
|
.fpu neon
|
|
|
|
rounds .req ip
|
|
bskey .req r4
|
|
|
|
q0l .req d0
|
|
q0h .req d1
|
|
q1l .req d2
|
|
q1h .req d3
|
|
q2l .req d4
|
|
q2h .req d5
|
|
q3l .req d6
|
|
q3h .req d7
|
|
q4l .req d8
|
|
q4h .req d9
|
|
q5l .req d10
|
|
q5h .req d11
|
|
q6l .req d12
|
|
q6h .req d13
|
|
q7l .req d14
|
|
q7h .req d15
|
|
q8l .req d16
|
|
q8h .req d17
|
|
q9l .req d18
|
|
q9h .req d19
|
|
q10l .req d20
|
|
q10h .req d21
|
|
q11l .req d22
|
|
q11h .req d23
|
|
q12l .req d24
|
|
q12h .req d25
|
|
q13l .req d26
|
|
q13h .req d27
|
|
q14l .req d28
|
|
q14h .req d29
|
|
q15l .req d30
|
|
q15h .req d31
|
|
|
|
.macro __tbl, out, tbl, in, tmp
|
|
.ifc \out, \tbl
|
|
.ifb \tmp
|
|
.error __tbl needs temp register if out == tbl
|
|
.endif
|
|
vmov \tmp, \out
|
|
.endif
|
|
vtbl.8 \out\()l, {\tbl}, \in\()l
|
|
.ifc \out, \tbl
|
|
vtbl.8 \out\()h, {\tmp}, \in\()h
|
|
.else
|
|
vtbl.8 \out\()h, {\tbl}, \in\()h
|
|
.endif
|
|
.endm
|
|
|
|
.macro __ldr, out, sym
|
|
vldr \out\()l, \sym
|
|
vldr \out\()h, \sym + 8
|
|
.endm
|
|
|
|
.macro in_bs_ch, b0, b1, b2, b3, b4, b5, b6, b7
|
|
veor \b2, \b2, \b1
|
|
veor \b5, \b5, \b6
|
|
veor \b3, \b3, \b0
|
|
veor \b6, \b6, \b2
|
|
veor \b5, \b5, \b0
|
|
veor \b6, \b6, \b3
|
|
veor \b3, \b3, \b7
|
|
veor \b7, \b7, \b5
|
|
veor \b3, \b3, \b4
|
|
veor \b4, \b4, \b5
|
|
veor \b2, \b2, \b7
|
|
veor \b3, \b3, \b1
|
|
veor \b1, \b1, \b5
|
|
.endm
|
|
|
|
.macro out_bs_ch, b0, b1, b2, b3, b4, b5, b6, b7
|
|
veor \b0, \b0, \b6
|
|
veor \b1, \b1, \b4
|
|
veor \b4, \b4, \b6
|
|
veor \b2, \b2, \b0
|
|
veor \b6, \b6, \b1
|
|
veor \b1, \b1, \b5
|
|
veor \b5, \b5, \b3
|
|
veor \b3, \b3, \b7
|
|
veor \b7, \b7, \b5
|
|
veor \b2, \b2, \b5
|
|
veor \b4, \b4, \b7
|
|
.endm
|
|
|
|
.macro inv_in_bs_ch, b6, b1, b2, b4, b7, b0, b3, b5
|
|
veor \b1, \b1, \b7
|
|
veor \b4, \b4, \b7
|
|
veor \b7, \b7, \b5
|
|
veor \b1, \b1, \b3
|
|
veor \b2, \b2, \b5
|
|
veor \b3, \b3, \b7
|
|
veor \b6, \b6, \b1
|
|
veor \b2, \b2, \b0
|
|
veor \b5, \b5, \b3
|
|
veor \b4, \b4, \b6
|
|
veor \b0, \b0, \b6
|
|
veor \b1, \b1, \b4
|
|
.endm
|
|
|
|
.macro inv_out_bs_ch, b6, b5, b0, b3, b7, b1, b4, b2
|
|
veor \b1, \b1, \b5
|
|
veor \b2, \b2, \b7
|
|
veor \b3, \b3, \b1
|
|
veor \b4, \b4, \b5
|
|
veor \b7, \b7, \b5
|
|
veor \b3, \b3, \b4
|
|
veor \b5, \b5, \b0
|
|
veor \b3, \b3, \b7
|
|
veor \b6, \b6, \b2
|
|
veor \b2, \b2, \b1
|
|
veor \b6, \b6, \b3
|
|
veor \b3, \b3, \b0
|
|
veor \b5, \b5, \b6
|
|
.endm
|
|
|
|
.macro mul_gf4, x0, x1, y0, y1, t0, t1
|
|
veor \t0, \y0, \y1
|
|
vand \t0, \t0, \x0
|
|
veor \x0, \x0, \x1
|
|
vand \t1, \x1, \y0
|
|
vand \x0, \x0, \y1
|
|
veor \x1, \t1, \t0
|
|
veor \x0, \x0, \t1
|
|
.endm
|
|
|
|
.macro mul_gf4_n_gf4, x0, x1, y0, y1, t0, x2, x3, y2, y3, t1
|
|
veor \t0, \y0, \y1
|
|
veor \t1, \y2, \y3
|
|
vand \t0, \t0, \x0
|
|
vand \t1, \t1, \x2
|
|
veor \x0, \x0, \x1
|
|
veor \x2, \x2, \x3
|
|
vand \x1, \x1, \y0
|
|
vand \x3, \x3, \y2
|
|
vand \x0, \x0, \y1
|
|
vand \x2, \x2, \y3
|
|
veor \x1, \x1, \x0
|
|
veor \x2, \x2, \x3
|
|
veor \x0, \x0, \t0
|
|
veor \x3, \x3, \t1
|
|
.endm
|
|
|
|
.macro mul_gf16_2, x0, x1, x2, x3, x4, x5, x6, x7, \
|
|
y0, y1, y2, y3, t0, t1, t2, t3
|
|
veor \t0, \x0, \x2
|
|
veor \t1, \x1, \x3
|
|
mul_gf4 \x0, \x1, \y0, \y1, \t2, \t3
|
|
veor \y0, \y0, \y2
|
|
veor \y1, \y1, \y3
|
|
mul_gf4_n_gf4 \t0, \t1, \y0, \y1, \t3, \x2, \x3, \y2, \y3, \t2
|
|
veor \x0, \x0, \t0
|
|
veor \x2, \x2, \t0
|
|
veor \x1, \x1, \t1
|
|
veor \x3, \x3, \t1
|
|
veor \t0, \x4, \x6
|
|
veor \t1, \x5, \x7
|
|
mul_gf4_n_gf4 \t0, \t1, \y0, \y1, \t3, \x6, \x7, \y2, \y3, \t2
|
|
veor \y0, \y0, \y2
|
|
veor \y1, \y1, \y3
|
|
mul_gf4 \x4, \x5, \y0, \y1, \t2, \t3
|
|
veor \x4, \x4, \t0
|
|
veor \x6, \x6, \t0
|
|
veor \x5, \x5, \t1
|
|
veor \x7, \x7, \t1
|
|
.endm
|
|
|
|
.macro inv_gf256, x0, x1, x2, x3, x4, x5, x6, x7, \
|
|
t0, t1, t2, t3, s0, s1, s2, s3
|
|
veor \t3, \x4, \x6
|
|
veor \t0, \x5, \x7
|
|
veor \t1, \x1, \x3
|
|
veor \s1, \x7, \x6
|
|
veor \s0, \x0, \x2
|
|
veor \s3, \t3, \t0
|
|
vorr \t2, \t0, \t1
|
|
vand \s2, \t3, \s0
|
|
vorr \t3, \t3, \s0
|
|
veor \s0, \s0, \t1
|
|
vand \t0, \t0, \t1
|
|
veor \t1, \x3, \x2
|
|
vand \s3, \s3, \s0
|
|
vand \s1, \s1, \t1
|
|
veor \t1, \x4, \x5
|
|
veor \s0, \x1, \x0
|
|
veor \t3, \t3, \s1
|
|
veor \t2, \t2, \s1
|
|
vand \s1, \t1, \s0
|
|
vorr \t1, \t1, \s0
|
|
veor \t3, \t3, \s3
|
|
veor \t0, \t0, \s1
|
|
veor \t2, \t2, \s2
|
|
veor \t1, \t1, \s3
|
|
veor \t0, \t0, \s2
|
|
vand \s0, \x7, \x3
|
|
veor \t1, \t1, \s2
|
|
vand \s1, \x6, \x2
|
|
vand \s2, \x5, \x1
|
|
vorr \s3, \x4, \x0
|
|
veor \t3, \t3, \s0
|
|
veor \t1, \t1, \s2
|
|
veor \s0, \t0, \s3
|
|
veor \t2, \t2, \s1
|
|
vand \s2, \t3, \t1
|
|
veor \s1, \t2, \s2
|
|
veor \s3, \s0, \s2
|
|
vbsl \s1, \t1, \s0
|
|
vmvn \t0, \s0
|
|
vbsl \s0, \s1, \s3
|
|
vbsl \t0, \s1, \s3
|
|
vbsl \s3, \t3, \t2
|
|
veor \t3, \t3, \t2
|
|
vand \s2, \s0, \s3
|
|
veor \t1, \t1, \t0
|
|
veor \s2, \s2, \t3
|
|
mul_gf16_2 \x0, \x1, \x2, \x3, \x4, \x5, \x6, \x7, \
|
|
\s3, \s2, \s1, \t1, \s0, \t0, \t2, \t3
|
|
.endm
|
|
|
|
.macro sbox, b0, b1, b2, b3, b4, b5, b6, b7, \
|
|
t0, t1, t2, t3, s0, s1, s2, s3
|
|
in_bs_ch \b0, \b1, \b2, \b3, \b4, \b5, \b6, \b7
|
|
inv_gf256 \b6, \b5, \b0, \b3, \b7, \b1, \b4, \b2, \
|
|
\t0, \t1, \t2, \t3, \s0, \s1, \s2, \s3
|
|
out_bs_ch \b7, \b1, \b4, \b2, \b6, \b5, \b0, \b3
|
|
.endm
|
|
|
|
.macro inv_sbox, b0, b1, b2, b3, b4, b5, b6, b7, \
|
|
t0, t1, t2, t3, s0, s1, s2, s3
|
|
inv_in_bs_ch \b0, \b1, \b2, \b3, \b4, \b5, \b6, \b7
|
|
inv_gf256 \b5, \b1, \b2, \b6, \b3, \b7, \b0, \b4, \
|
|
\t0, \t1, \t2, \t3, \s0, \s1, \s2, \s3
|
|
inv_out_bs_ch \b3, \b7, \b0, \b4, \b5, \b1, \b2, \b6
|
|
.endm
|
|
|
|
.macro shift_rows, x0, x1, x2, x3, x4, x5, x6, x7, \
|
|
t0, t1, t2, t3, mask
|
|
vld1.8 {\t0-\t1}, [bskey, :256]!
|
|
veor \t0, \t0, \x0
|
|
vld1.8 {\t2-\t3}, [bskey, :256]!
|
|
veor \t1, \t1, \x1
|
|
__tbl \x0, \t0, \mask
|
|
veor \t2, \t2, \x2
|
|
__tbl \x1, \t1, \mask
|
|
vld1.8 {\t0-\t1}, [bskey, :256]!
|
|
veor \t3, \t3, \x3
|
|
__tbl \x2, \t2, \mask
|
|
__tbl \x3, \t3, \mask
|
|
vld1.8 {\t2-\t3}, [bskey, :256]!
|
|
veor \t0, \t0, \x4
|
|
veor \t1, \t1, \x5
|
|
__tbl \x4, \t0, \mask
|
|
veor \t2, \t2, \x6
|
|
__tbl \x5, \t1, \mask
|
|
veor \t3, \t3, \x7
|
|
__tbl \x6, \t2, \mask
|
|
__tbl \x7, \t3, \mask
|
|
.endm
|
|
|
|
.macro inv_shift_rows, x0, x1, x2, x3, x4, x5, x6, x7, \
|
|
t0, t1, t2, t3, mask
|
|
__tbl \x0, \x0, \mask, \t0
|
|
__tbl \x1, \x1, \mask, \t1
|
|
__tbl \x2, \x2, \mask, \t2
|
|
__tbl \x3, \x3, \mask, \t3
|
|
__tbl \x4, \x4, \mask, \t0
|
|
__tbl \x5, \x5, \mask, \t1
|
|
__tbl \x6, \x6, \mask, \t2
|
|
__tbl \x7, \x7, \mask, \t3
|
|
.endm
|
|
|
|
.macro mix_cols, x0, x1, x2, x3, x4, x5, x6, x7, \
|
|
t0, t1, t2, t3, t4, t5, t6, t7, inv
|
|
vext.8 \t0, \x0, \x0, #12
|
|
vext.8 \t1, \x1, \x1, #12
|
|
veor \x0, \x0, \t0
|
|
vext.8 \t2, \x2, \x2, #12
|
|
veor \x1, \x1, \t1
|
|
vext.8 \t3, \x3, \x3, #12
|
|
veor \x2, \x2, \t2
|
|
vext.8 \t4, \x4, \x4, #12
|
|
veor \x3, \x3, \t3
|
|
vext.8 \t5, \x5, \x5, #12
|
|
veor \x4, \x4, \t4
|
|
vext.8 \t6, \x6, \x6, #12
|
|
veor \x5, \x5, \t5
|
|
vext.8 \t7, \x7, \x7, #12
|
|
veor \x6, \x6, \t6
|
|
veor \t1, \t1, \x0
|
|
veor.8 \x7, \x7, \t7
|
|
vext.8 \x0, \x0, \x0, #8
|
|
veor \t2, \t2, \x1
|
|
veor \t0, \t0, \x7
|
|
veor \t1, \t1, \x7
|
|
vext.8 \x1, \x1, \x1, #8
|
|
veor \t5, \t5, \x4
|
|
veor \x0, \x0, \t0
|
|
veor \t6, \t6, \x5
|
|
veor \x1, \x1, \t1
|
|
vext.8 \t0, \x4, \x4, #8
|
|
veor \t4, \t4, \x3
|
|
vext.8 \t1, \x5, \x5, #8
|
|
veor \t7, \t7, \x6
|
|
vext.8 \x4, \x3, \x3, #8
|
|
veor \t3, \t3, \x2
|
|
vext.8 \x5, \x7, \x7, #8
|
|
veor \t4, \t4, \x7
|
|
vext.8 \x3, \x6, \x6, #8
|
|
veor \t3, \t3, \x7
|
|
vext.8 \x6, \x2, \x2, #8
|
|
veor \x7, \t1, \t5
|
|
.ifb \inv
|
|
veor \x2, \t0, \t4
|
|
veor \x4, \x4, \t3
|
|
veor \x5, \x5, \t7
|
|
veor \x3, \x3, \t6
|
|
veor \x6, \x6, \t2
|
|
.else
|
|
veor \t3, \t3, \x4
|
|
veor \x5, \x5, \t7
|
|
veor \x2, \x3, \t6
|
|
veor \x3, \t0, \t4
|
|
veor \x4, \x6, \t2
|
|
vmov \x6, \t3
|
|
.endif
|
|
.endm
|
|
|
|
.macro inv_mix_cols, x0, x1, x2, x3, x4, x5, x6, x7, \
|
|
t0, t1, t2, t3, t4, t5, t6, t7
|
|
vld1.8 {\t0-\t1}, [bskey, :256]!
|
|
veor \x0, \x0, \t0
|
|
vld1.8 {\t2-\t3}, [bskey, :256]!
|
|
veor \x1, \x1, \t1
|
|
vld1.8 {\t4-\t5}, [bskey, :256]!
|
|
veor \x2, \x2, \t2
|
|
vld1.8 {\t6-\t7}, [bskey, :256]
|
|
sub bskey, bskey, #224
|
|
veor \x3, \x3, \t3
|
|
veor \x4, \x4, \t4
|
|
veor \x5, \x5, \t5
|
|
veor \x6, \x6, \t6
|
|
veor \x7, \x7, \t7
|
|
vext.8 \t0, \x0, \x0, #8
|
|
vext.8 \t6, \x6, \x6, #8
|
|
vext.8 \t7, \x7, \x7, #8
|
|
veor \t0, \t0, \x0
|
|
vext.8 \t1, \x1, \x1, #8
|
|
veor \t6, \t6, \x6
|
|
vext.8 \t2, \x2, \x2, #8
|
|
veor \t7, \t7, \x7
|
|
vext.8 \t3, \x3, \x3, #8
|
|
veor \t1, \t1, \x1
|
|
vext.8 \t4, \x4, \x4, #8
|
|
veor \t2, \t2, \x2
|
|
vext.8 \t5, \x5, \x5, #8
|
|
veor \t3, \t3, \x3
|
|
veor \t4, \t4, \x4
|
|
veor \t5, \t5, \x5
|
|
veor \x0, \x0, \t6
|
|
veor \x1, \x1, \t6
|
|
veor \x2, \x2, \t0
|
|
veor \x4, \x4, \t2
|
|
veor \x3, \x3, \t1
|
|
veor \x1, \x1, \t7
|
|
veor \x2, \x2, \t7
|
|
veor \x4, \x4, \t6
|
|
veor \x5, \x5, \t3
|
|
veor \x3, \x3, \t6
|
|
veor \x6, \x6, \t4
|
|
veor \x4, \x4, \t7
|
|
veor \x5, \x5, \t7
|
|
veor \x7, \x7, \t5
|
|
mix_cols \x0, \x1, \x2, \x3, \x4, \x5, \x6, \x7, \
|
|
\t0, \t1, \t2, \t3, \t4, \t5, \t6, \t7, 1
|
|
.endm
|
|
|
|
.macro swapmove_2x, a0, b0, a1, b1, n, mask, t0, t1
|
|
vshr.u64 \t0, \b0, #\n
|
|
vshr.u64 \t1, \b1, #\n
|
|
veor \t0, \t0, \a0
|
|
veor \t1, \t1, \a1
|
|
vand \t0, \t0, \mask
|
|
vand \t1, \t1, \mask
|
|
veor \a0, \a0, \t0
|
|
vshl.s64 \t0, \t0, #\n
|
|
veor \a1, \a1, \t1
|
|
vshl.s64 \t1, \t1, #\n
|
|
veor \b0, \b0, \t0
|
|
veor \b1, \b1, \t1
|
|
.endm
|
|
|
|
.macro bitslice, x7, x6, x5, x4, x3, x2, x1, x0, t0, t1, t2, t3
|
|
vmov.i8 \t0, #0x55
|
|
vmov.i8 \t1, #0x33
|
|
swapmove_2x \x0, \x1, \x2, \x3, 1, \t0, \t2, \t3
|
|
swapmove_2x \x4, \x5, \x6, \x7, 1, \t0, \t2, \t3
|
|
vmov.i8 \t0, #0x0f
|
|
swapmove_2x \x0, \x2, \x1, \x3, 2, \t1, \t2, \t3
|
|
swapmove_2x \x4, \x6, \x5, \x7, 2, \t1, \t2, \t3
|
|
swapmove_2x \x0, \x4, \x1, \x5, 4, \t0, \t2, \t3
|
|
swapmove_2x \x2, \x6, \x3, \x7, 4, \t0, \t2, \t3
|
|
.endm
|
|
|
|
.align 4
|
|
M0: .quad 0x02060a0e03070b0f, 0x0004080c0105090d
|
|
|
|
/*
|
|
* void aesbs_convert_key(u8 out[], u32 const rk[], int rounds)
|
|
*/
|
|
ENTRY(aesbs_convert_key)
|
|
vld1.32 {q7}, [r1]! // load round 0 key
|
|
vld1.32 {q15}, [r1]! // load round 1 key
|
|
|
|
vmov.i8 q8, #0x01 // bit masks
|
|
vmov.i8 q9, #0x02
|
|
vmov.i8 q10, #0x04
|
|
vmov.i8 q11, #0x08
|
|
vmov.i8 q12, #0x10
|
|
vmov.i8 q13, #0x20
|
|
__ldr q14, M0
|
|
|
|
sub r2, r2, #1
|
|
vst1.8 {q7}, [r0, :128]! // save round 0 key
|
|
|
|
.Lkey_loop:
|
|
__tbl q7, q15, q14
|
|
vmov.i8 q6, #0x40
|
|
vmov.i8 q15, #0x80
|
|
|
|
vtst.8 q0, q7, q8
|
|
vtst.8 q1, q7, q9
|
|
vtst.8 q2, q7, q10
|
|
vtst.8 q3, q7, q11
|
|
vtst.8 q4, q7, q12
|
|
vtst.8 q5, q7, q13
|
|
vtst.8 q6, q7, q6
|
|
vtst.8 q7, q7, q15
|
|
vld1.32 {q15}, [r1]! // load next round key
|
|
vmvn q0, q0
|
|
vmvn q1, q1
|
|
vmvn q5, q5
|
|
vmvn q6, q6
|
|
|
|
subs r2, r2, #1
|
|
vst1.8 {q0-q1}, [r0, :256]!
|
|
vst1.8 {q2-q3}, [r0, :256]!
|
|
vst1.8 {q4-q5}, [r0, :256]!
|
|
vst1.8 {q6-q7}, [r0, :256]!
|
|
bne .Lkey_loop
|
|
|
|
vmov.i8 q7, #0x63 // compose .L63
|
|
veor q15, q15, q7
|
|
vst1.8 {q15}, [r0, :128]
|
|
bx lr
|
|
ENDPROC(aesbs_convert_key)
|
|
|
|
.align 4
|
|
M0SR: .quad 0x0a0e02060f03070b, 0x0004080c05090d01
|
|
|
|
aesbs_encrypt8:
|
|
vld1.8 {q9}, [bskey, :128]! // round 0 key
|
|
__ldr q8, M0SR
|
|
|
|
veor q10, q0, q9 // xor with round0 key
|
|
veor q11, q1, q9
|
|
__tbl q0, q10, q8
|
|
veor q12, q2, q9
|
|
__tbl q1, q11, q8
|
|
veor q13, q3, q9
|
|
__tbl q2, q12, q8
|
|
veor q14, q4, q9
|
|
__tbl q3, q13, q8
|
|
veor q15, q5, q9
|
|
__tbl q4, q14, q8
|
|
veor q10, q6, q9
|
|
__tbl q5, q15, q8
|
|
veor q11, q7, q9
|
|
__tbl q6, q10, q8
|
|
__tbl q7, q11, q8
|
|
|
|
bitslice q0, q1, q2, q3, q4, q5, q6, q7, q8, q9, q10, q11
|
|
|
|
sub rounds, rounds, #1
|
|
b .Lenc_sbox
|
|
|
|
.align 5
|
|
SR: .quad 0x0504070600030201, 0x0f0e0d0c0a09080b
|
|
SRM0: .quad 0x0304090e00050a0f, 0x01060b0c0207080d
|
|
|
|
.Lenc_last:
|
|
__ldr q12, SRM0
|
|
.Lenc_loop:
|
|
shift_rows q0, q1, q2, q3, q4, q5, q6, q7, q8, q9, q10, q11, q12
|
|
.Lenc_sbox:
|
|
sbox q0, q1, q2, q3, q4, q5, q6, q7, q8, q9, q10, q11, q12, \
|
|
q13, q14, q15
|
|
subs rounds, rounds, #1
|
|
bcc .Lenc_done
|
|
|
|
mix_cols q0, q1, q4, q6, q3, q7, q2, q5, q8, q9, q10, q11, q12, \
|
|
q13, q14, q15
|
|
|
|
beq .Lenc_last
|
|
__ldr q12, SR
|
|
b .Lenc_loop
|
|
|
|
.Lenc_done:
|
|
vld1.8 {q12}, [bskey, :128] // last round key
|
|
|
|
bitslice q0, q1, q4, q6, q3, q7, q2, q5, q8, q9, q10, q11
|
|
|
|
veor q0, q0, q12
|
|
veor q1, q1, q12
|
|
veor q4, q4, q12
|
|
veor q6, q6, q12
|
|
veor q3, q3, q12
|
|
veor q7, q7, q12
|
|
veor q2, q2, q12
|
|
veor q5, q5, q12
|
|
bx lr
|
|
ENDPROC(aesbs_encrypt8)
|
|
|
|
.align 4
|
|
M0ISR: .quad 0x0a0e0206070b0f03, 0x0004080c0d010509
|
|
|
|
aesbs_decrypt8:
|
|
add bskey, bskey, rounds, lsl #7
|
|
sub bskey, bskey, #112
|
|
vld1.8 {q9}, [bskey, :128] // round 0 key
|
|
sub bskey, bskey, #128
|
|
__ldr q8, M0ISR
|
|
|
|
veor q10, q0, q9 // xor with round0 key
|
|
veor q11, q1, q9
|
|
__tbl q0, q10, q8
|
|
veor q12, q2, q9
|
|
__tbl q1, q11, q8
|
|
veor q13, q3, q9
|
|
__tbl q2, q12, q8
|
|
veor q14, q4, q9
|
|
__tbl q3, q13, q8
|
|
veor q15, q5, q9
|
|
__tbl q4, q14, q8
|
|
veor q10, q6, q9
|
|
__tbl q5, q15, q8
|
|
veor q11, q7, q9
|
|
__tbl q6, q10, q8
|
|
__tbl q7, q11, q8
|
|
|
|
bitslice q0, q1, q2, q3, q4, q5, q6, q7, q8, q9, q10, q11
|
|
|
|
sub rounds, rounds, #1
|
|
b .Ldec_sbox
|
|
|
|
.align 5
|
|
ISR: .quad 0x0504070602010003, 0x0f0e0d0c080b0a09
|
|
ISRM0: .quad 0x01040b0e0205080f, 0x0306090c00070a0d
|
|
|
|
.Ldec_last:
|
|
__ldr q12, ISRM0
|
|
.Ldec_loop:
|
|
inv_shift_rows q0, q1, q2, q3, q4, q5, q6, q7, q8, q9, q10, q11, q12
|
|
.Ldec_sbox:
|
|
inv_sbox q0, q1, q2, q3, q4, q5, q6, q7, q8, q9, q10, q11, q12, \
|
|
q13, q14, q15
|
|
subs rounds, rounds, #1
|
|
bcc .Ldec_done
|
|
|
|
inv_mix_cols q0, q1, q6, q4, q2, q7, q3, q5, q8, q9, q10, q11, q12, \
|
|
q13, q14, q15
|
|
|
|
beq .Ldec_last
|
|
__ldr q12, ISR
|
|
b .Ldec_loop
|
|
|
|
.Ldec_done:
|
|
add bskey, bskey, #112
|
|
vld1.8 {q12}, [bskey, :128] // last round key
|
|
|
|
bitslice q0, q1, q6, q4, q2, q7, q3, q5, q8, q9, q10, q11
|
|
|
|
veor q0, q0, q12
|
|
veor q1, q1, q12
|
|
veor q6, q6, q12
|
|
veor q4, q4, q12
|
|
veor q2, q2, q12
|
|
veor q7, q7, q12
|
|
veor q3, q3, q12
|
|
veor q5, q5, q12
|
|
bx lr
|
|
ENDPROC(aesbs_decrypt8)
|
|
|
|
/*
|
|
* aesbs_ecb_encrypt(u8 out[], u8 const in[], u8 const rk[], int rounds,
|
|
* int blocks)
|
|
* aesbs_ecb_decrypt(u8 out[], u8 const in[], u8 const rk[], int rounds,
|
|
* int blocks)
|
|
*/
|
|
.macro __ecb_crypt, do8, o0, o1, o2, o3, o4, o5, o6, o7
|
|
push {r4-r6, lr}
|
|
ldr r5, [sp, #16] // number of blocks
|
|
|
|
99: adr ip, 0f
|
|
and lr, r5, #7
|
|
cmp r5, #8
|
|
sub ip, ip, lr, lsl #2
|
|
movlt pc, ip // computed goto if blocks < 8
|
|
|
|
vld1.8 {q0}, [r1]!
|
|
vld1.8 {q1}, [r1]!
|
|
vld1.8 {q2}, [r1]!
|
|
vld1.8 {q3}, [r1]!
|
|
vld1.8 {q4}, [r1]!
|
|
vld1.8 {q5}, [r1]!
|
|
vld1.8 {q6}, [r1]!
|
|
vld1.8 {q7}, [r1]!
|
|
|
|
0: mov bskey, r2
|
|
mov rounds, r3
|
|
bl \do8
|
|
|
|
adr ip, 1f
|
|
and lr, r5, #7
|
|
cmp r5, #8
|
|
sub ip, ip, lr, lsl #2
|
|
movlt pc, ip // computed goto if blocks < 8
|
|
|
|
vst1.8 {\o0}, [r0]!
|
|
vst1.8 {\o1}, [r0]!
|
|
vst1.8 {\o2}, [r0]!
|
|
vst1.8 {\o3}, [r0]!
|
|
vst1.8 {\o4}, [r0]!
|
|
vst1.8 {\o5}, [r0]!
|
|
vst1.8 {\o6}, [r0]!
|
|
vst1.8 {\o7}, [r0]!
|
|
|
|
1: subs r5, r5, #8
|
|
bgt 99b
|
|
|
|
pop {r4-r6, pc}
|
|
.endm
|
|
|
|
.align 4
|
|
ENTRY(aesbs_ecb_encrypt)
|
|
__ecb_crypt aesbs_encrypt8, q0, q1, q4, q6, q3, q7, q2, q5
|
|
ENDPROC(aesbs_ecb_encrypt)
|
|
|
|
.align 4
|
|
ENTRY(aesbs_ecb_decrypt)
|
|
__ecb_crypt aesbs_decrypt8, q0, q1, q6, q4, q2, q7, q3, q5
|
|
ENDPROC(aesbs_ecb_decrypt)
|
|
|
|
/*
|
|
* aesbs_cbc_decrypt(u8 out[], u8 const in[], u8 const rk[],
|
|
* int rounds, int blocks, u8 iv[])
|
|
*/
|
|
.align 4
|
|
ENTRY(aesbs_cbc_decrypt)
|
|
mov ip, sp
|
|
push {r4-r6, lr}
|
|
ldm ip, {r5-r6} // load args 4-5
|
|
|
|
99: adr ip, 0f
|
|
and lr, r5, #7
|
|
cmp r5, #8
|
|
sub ip, ip, lr, lsl #2
|
|
mov lr, r1
|
|
movlt pc, ip // computed goto if blocks < 8
|
|
|
|
vld1.8 {q0}, [lr]!
|
|
vld1.8 {q1}, [lr]!
|
|
vld1.8 {q2}, [lr]!
|
|
vld1.8 {q3}, [lr]!
|
|
vld1.8 {q4}, [lr]!
|
|
vld1.8 {q5}, [lr]!
|
|
vld1.8 {q6}, [lr]!
|
|
vld1.8 {q7}, [lr]
|
|
|
|
0: mov bskey, r2
|
|
mov rounds, r3
|
|
bl aesbs_decrypt8
|
|
|
|
vld1.8 {q8}, [r6]
|
|
vmov q9, q8
|
|
vmov q10, q8
|
|
vmov q11, q8
|
|
vmov q12, q8
|
|
vmov q13, q8
|
|
vmov q14, q8
|
|
vmov q15, q8
|
|
|
|
adr ip, 1f
|
|
and lr, r5, #7
|
|
cmp r5, #8
|
|
sub ip, ip, lr, lsl #2
|
|
movlt pc, ip // computed goto if blocks < 8
|
|
|
|
vld1.8 {q9}, [r1]!
|
|
vld1.8 {q10}, [r1]!
|
|
vld1.8 {q11}, [r1]!
|
|
vld1.8 {q12}, [r1]!
|
|
vld1.8 {q13}, [r1]!
|
|
vld1.8 {q14}, [r1]!
|
|
vld1.8 {q15}, [r1]!
|
|
W(nop)
|
|
|
|
1: adr ip, 2f
|
|
sub ip, ip, lr, lsl #3
|
|
movlt pc, ip // computed goto if blocks < 8
|
|
|
|
veor q0, q0, q8
|
|
vst1.8 {q0}, [r0]!
|
|
veor q1, q1, q9
|
|
vst1.8 {q1}, [r0]!
|
|
veor q6, q6, q10
|
|
vst1.8 {q6}, [r0]!
|
|
veor q4, q4, q11
|
|
vst1.8 {q4}, [r0]!
|
|
veor q2, q2, q12
|
|
vst1.8 {q2}, [r0]!
|
|
veor q7, q7, q13
|
|
vst1.8 {q7}, [r0]!
|
|
veor q3, q3, q14
|
|
vst1.8 {q3}, [r0]!
|
|
veor q5, q5, q15
|
|
vld1.8 {q8}, [r1]! // load next round's iv
|
|
2: vst1.8 {q5}, [r0]!
|
|
|
|
subs r5, r5, #8
|
|
vst1.8 {q8}, [r6] // store next round's iv
|
|
bgt 99b
|
|
|
|
pop {r4-r6, pc}
|
|
ENDPROC(aesbs_cbc_decrypt)
|
|
|
|
.macro next_ctr, q
|
|
vmov \q\()h, r9, r10
|
|
adds r10, r10, #1
|
|
adcs r9, r9, #0
|
|
vmov \q\()l, r7, r8
|
|
adcs r8, r8, #0
|
|
adc r7, r7, #0
|
|
vrev32.8 \q, \q
|
|
.endm
|
|
|
|
/*
|
|
* aesbs_ctr_encrypt(u8 out[], u8 const in[], u8 const rk[],
|
|
* int rounds, int bytes, u8 ctr[])
|
|
*/
|
|
ENTRY(aesbs_ctr_encrypt)
|
|
mov ip, sp
|
|
push {r4-r10, lr}
|
|
|
|
ldm ip, {r5, r6} // load args 4-5
|
|
vld1.8 {q0}, [r6] // load counter
|
|
vrev32.8 q1, q0
|
|
vmov r9, r10, d3
|
|
vmov r7, r8, d2
|
|
|
|
adds r10, r10, #1
|
|
adcs r9, r9, #0
|
|
adcs r8, r8, #0
|
|
adc r7, r7, #0
|
|
|
|
99: vmov q1, q0
|
|
sub lr, r5, #1
|
|
vmov q2, q0
|
|
adr ip, 0f
|
|
vmov q3, q0
|
|
and lr, lr, #112
|
|
vmov q4, q0
|
|
cmp r5, #112
|
|
vmov q5, q0
|
|
sub ip, ip, lr, lsl #1
|
|
vmov q6, q0
|
|
add ip, ip, lr, lsr #2
|
|
vmov q7, q0
|
|
movle pc, ip // computed goto if bytes < 112
|
|
|
|
next_ctr q1
|
|
next_ctr q2
|
|
next_ctr q3
|
|
next_ctr q4
|
|
next_ctr q5
|
|
next_ctr q6
|
|
next_ctr q7
|
|
|
|
0: mov bskey, r2
|
|
mov rounds, r3
|
|
bl aesbs_encrypt8
|
|
|
|
adr ip, 1f
|
|
sub lr, r5, #1
|
|
cmp r5, #128
|
|
bic lr, lr, #15
|
|
ands r4, r5, #15 // preserves C flag
|
|
teqcs r5, r5 // set Z flag if not last iteration
|
|
sub ip, ip, lr, lsr #2
|
|
rsb r4, r4, #16
|
|
movcc pc, ip // computed goto if bytes < 128
|
|
|
|
vld1.8 {q8}, [r1]!
|
|
vld1.8 {q9}, [r1]!
|
|
vld1.8 {q10}, [r1]!
|
|
vld1.8 {q11}, [r1]!
|
|
vld1.8 {q12}, [r1]!
|
|
vld1.8 {q13}, [r1]!
|
|
vld1.8 {q14}, [r1]!
|
|
1: subne r1, r1, r4
|
|
vld1.8 {q15}, [r1]!
|
|
|
|
add ip, ip, #2f - 1b
|
|
|
|
veor q0, q0, q8
|
|
veor q1, q1, q9
|
|
veor q4, q4, q10
|
|
veor q6, q6, q11
|
|
veor q3, q3, q12
|
|
veor q7, q7, q13
|
|
veor q2, q2, q14
|
|
bne 3f
|
|
veor q5, q5, q15
|
|
|
|
movcc pc, ip // computed goto if bytes < 128
|
|
|
|
vst1.8 {q0}, [r0]!
|
|
vst1.8 {q1}, [r0]!
|
|
vst1.8 {q4}, [r0]!
|
|
vst1.8 {q6}, [r0]!
|
|
vst1.8 {q3}, [r0]!
|
|
vst1.8 {q7}, [r0]!
|
|
vst1.8 {q2}, [r0]!
|
|
2: subne r0, r0, r4
|
|
vst1.8 {q5}, [r0]!
|
|
|
|
next_ctr q0
|
|
|
|
subs r5, r5, #128
|
|
bgt 99b
|
|
|
|
vst1.8 {q0}, [r6]
|
|
pop {r4-r10, pc}
|
|
|
|
3: adr lr, .Lpermute_table + 16
|
|
cmp r5, #16 // Z flag remains cleared
|
|
sub lr, lr, r4
|
|
vld1.8 {q8-q9}, [lr]
|
|
vtbl.8 d16, {q5}, d16
|
|
vtbl.8 d17, {q5}, d17
|
|
veor q5, q8, q15
|
|
bcc 4f // have to reload prev if R5 < 16
|
|
vtbx.8 d10, {q2}, d18
|
|
vtbx.8 d11, {q2}, d19
|
|
mov pc, ip // branch back to VST sequence
|
|
|
|
4: sub r0, r0, r4
|
|
vshr.s8 q9, q9, #7 // create mask for VBIF
|
|
vld1.8 {q8}, [r0] // reload
|
|
vbif q5, q8, q9
|
|
vst1.8 {q5}, [r0]
|
|
pop {r4-r10, pc}
|
|
ENDPROC(aesbs_ctr_encrypt)
|
|
|
|
.align 6
|
|
.Lpermute_table:
|
|
.byte 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff
|
|
.byte 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff
|
|
.byte 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07
|
|
.byte 0x08, 0x09, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e, 0x0f
|
|
.byte 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff
|
|
.byte 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff
|
|
|
|
.macro next_tweak, out, in, const, tmp
|
|
vshr.s64 \tmp, \in, #63
|
|
vand \tmp, \tmp, \const
|
|
vadd.u64 \out, \in, \in
|
|
vext.8 \tmp, \tmp, \tmp, #8
|
|
veor \out, \out, \tmp
|
|
.endm
|
|
|
|
/*
|
|
* aesbs_xts_encrypt(u8 out[], u8 const in[], u8 const rk[], int rounds,
|
|
* int blocks, u8 iv[], int reorder_last_tweak)
|
|
* aesbs_xts_decrypt(u8 out[], u8 const in[], u8 const rk[], int rounds,
|
|
* int blocks, u8 iv[], int reorder_last_tweak)
|
|
*/
|
|
.align 6
|
|
__xts_prepare8:
|
|
vld1.8 {q14}, [r7] // load iv
|
|
vmov.i32 d30, #0x87 // compose tweak mask vector
|
|
vmovl.u32 q15, d30
|
|
vshr.u64 d30, d31, #7
|
|
vmov q12, q14
|
|
|
|
adr ip, 0f
|
|
and r4, r6, #7
|
|
cmp r6, #8
|
|
sub ip, ip, r4, lsl #5
|
|
mov r4, sp
|
|
movlt pc, ip // computed goto if blocks < 8
|
|
|
|
vld1.8 {q0}, [r1]!
|
|
next_tweak q12, q14, q15, q13
|
|
veor q0, q0, q14
|
|
vst1.8 {q14}, [r4, :128]!
|
|
|
|
vld1.8 {q1}, [r1]!
|
|
next_tweak q14, q12, q15, q13
|
|
veor q1, q1, q12
|
|
vst1.8 {q12}, [r4, :128]!
|
|
|
|
vld1.8 {q2}, [r1]!
|
|
next_tweak q12, q14, q15, q13
|
|
veor q2, q2, q14
|
|
vst1.8 {q14}, [r4, :128]!
|
|
|
|
vld1.8 {q3}, [r1]!
|
|
next_tweak q14, q12, q15, q13
|
|
veor q3, q3, q12
|
|
vst1.8 {q12}, [r4, :128]!
|
|
|
|
vld1.8 {q4}, [r1]!
|
|
next_tweak q12, q14, q15, q13
|
|
veor q4, q4, q14
|
|
vst1.8 {q14}, [r4, :128]!
|
|
|
|
vld1.8 {q5}, [r1]!
|
|
next_tweak q14, q12, q15, q13
|
|
veor q5, q5, q12
|
|
vst1.8 {q12}, [r4, :128]!
|
|
|
|
vld1.8 {q6}, [r1]!
|
|
next_tweak q12, q14, q15, q13
|
|
veor q6, q6, q14
|
|
vst1.8 {q14}, [r4, :128]!
|
|
|
|
vld1.8 {q7}, [r1]!
|
|
next_tweak q14, q12, q15, q13
|
|
THUMB( itt le )
|
|
W(cmple) r8, #0
|
|
ble 1f
|
|
0: veor q7, q7, q12
|
|
vst1.8 {q12}, [r4, :128]
|
|
|
|
vst1.8 {q14}, [r7] // store next iv
|
|
bx lr
|
|
|
|
1: vswp q12, q14
|
|
b 0b
|
|
ENDPROC(__xts_prepare8)
|
|
|
|
.macro __xts_crypt, do8, o0, o1, o2, o3, o4, o5, o6, o7
|
|
push {r4-r8, lr}
|
|
mov r5, sp // preserve sp
|
|
ldrd r6, r7, [sp, #24] // get blocks and iv args
|
|
rsb r8, ip, #1
|
|
sub ip, sp, #128 // make room for 8x tweak
|
|
bic ip, ip, #0xf // align sp to 16 bytes
|
|
mov sp, ip
|
|
|
|
99: bl __xts_prepare8
|
|
|
|
mov bskey, r2
|
|
mov rounds, r3
|
|
bl \do8
|
|
|
|
adr ip, 0f
|
|
and lr, r6, #7
|
|
cmp r6, #8
|
|
sub ip, ip, lr, lsl #2
|
|
mov r4, sp
|
|
movlt pc, ip // computed goto if blocks < 8
|
|
|
|
vld1.8 {q8}, [r4, :128]!
|
|
vld1.8 {q9}, [r4, :128]!
|
|
vld1.8 {q10}, [r4, :128]!
|
|
vld1.8 {q11}, [r4, :128]!
|
|
vld1.8 {q12}, [r4, :128]!
|
|
vld1.8 {q13}, [r4, :128]!
|
|
vld1.8 {q14}, [r4, :128]!
|
|
vld1.8 {q15}, [r4, :128]
|
|
|
|
0: adr ip, 1f
|
|
sub ip, ip, lr, lsl #3
|
|
movlt pc, ip // computed goto if blocks < 8
|
|
|
|
veor \o0, \o0, q8
|
|
vst1.8 {\o0}, [r0]!
|
|
veor \o1, \o1, q9
|
|
vst1.8 {\o1}, [r0]!
|
|
veor \o2, \o2, q10
|
|
vst1.8 {\o2}, [r0]!
|
|
veor \o3, \o3, q11
|
|
vst1.8 {\o3}, [r0]!
|
|
veor \o4, \o4, q12
|
|
vst1.8 {\o4}, [r0]!
|
|
veor \o5, \o5, q13
|
|
vst1.8 {\o5}, [r0]!
|
|
veor \o6, \o6, q14
|
|
vst1.8 {\o6}, [r0]!
|
|
veor \o7, \o7, q15
|
|
vst1.8 {\o7}, [r0]!
|
|
|
|
1: subs r6, r6, #8
|
|
bgt 99b
|
|
|
|
mov sp, r5
|
|
pop {r4-r8, pc}
|
|
.endm
|
|
|
|
ENTRY(aesbs_xts_encrypt)
|
|
mov ip, #0 // never reorder final tweak
|
|
__xts_crypt aesbs_encrypt8, q0, q1, q4, q6, q3, q7, q2, q5
|
|
ENDPROC(aesbs_xts_encrypt)
|
|
|
|
ENTRY(aesbs_xts_decrypt)
|
|
ldr ip, [sp, #8] // reorder final tweak?
|
|
__xts_crypt aesbs_decrypt8, q0, q1, q6, q4, q2, q7, q3, q5
|
|
ENDPROC(aesbs_xts_decrypt)
|