pkgconfig: Fix libgcrypt.pc.
[libgcrypt.git] / cipher / sha512-avx2-bmi2-amd64.S
1 /*
2 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
3 ; Copyright (c) 2012, Intel Corporation
4 ;
5 ; All rights reserved.
6 ;
7 ; Redistribution and use in source and binary forms, with or without
8 ; modification, are permitted provided that the following conditions are
9 ; met:
10 ;
11 ; * Redistributions of source code must retain the above copyright
12 ;   notice, this list of conditions and the following disclaimer.
13 ;
14 ; * Redistributions in binary form must reproduce the above copyright
15 ;   notice, this list of conditions and the following disclaimer in the
16 ;   documentation and/or other materials provided with the
17 ;   distribution.
18 ;
19 ; * Neither the name of the Intel Corporation nor the names of its
20 ;   contributors may be used to endorse or promote products derived from
21 ;   this software without specific prior written permission.
22 ;
23 ;
24 ; THIS SOFTWARE IS PROVIDED BY INTEL CORPORATION "AS IS" AND ANY
25 ; EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
26 ; IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
27 ; PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL INTEL CORPORATION OR
28 ; CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
29 ; EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
30 ; PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
31 ; PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
32 ; LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
33 ; NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
34 ; SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
35 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
36 ; This code schedules 1 blocks at a time, with 4 lanes per block
37 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
38 */
39 /*
40  * Conversion to GAS assembly and integration to libgcrypt
41  *  by Jussi Kivilinna <jussi.kivilinna@iki.fi>
42  */
43
44 #ifdef __x86_64
45 #include <config.h>
46 #if (defined(HAVE_COMPATIBLE_GCC_AMD64_PLATFORM_AS) || \
47      defined(HAVE_COMPATIBLE_GCC_WIN64_PLATFORM_AS)) && \
48     defined(HAVE_INTEL_SYNTAX_PLATFORM_AS) && \
49     defined(HAVE_GCC_INLINE_ASM_AVX2) && defined(HAVE_GCC_INLINE_ASM_BMI2) && \
50     defined(USE_SHA512)
51
52 #include "asm-common-amd64.h"
53
54 .intel_syntax noprefix
55
56 .text
57
58 /* Virtual Registers */
59 Y_0 = ymm4
60 Y_1 = ymm5
61 Y_2 = ymm6
62 Y_3 = ymm7
63
64 YTMP0 = ymm0
65 YTMP1 = ymm1
66 YTMP2 = ymm2
67 YTMP3 = ymm3
68 YTMP4 = ymm8
69 XFER =  YTMP0
70
71 BYTE_FLIP_MASK =  ymm9
72 MASK_YMM_LO    =  ymm10
73 MASK_YMM_LOx   =  xmm10
74
75 INP =         rdi /* 1st arg */
76 CTX =         rsi /* 2nd arg */
77 NUM_BLKS =    rdx /* 3rd arg */
78 c =           rcx
79 d =           r8
80 e =           rdx
81 y3 =          rdi
82
83 TBL =   rbp
84
85 a =     rax
86 b =     rbx
87
88 f =     r9
89 g =     r10
90 h =     r11
91 old_h = rax
92
93 T1 =    r12
94 y0 =    r13
95 y1 =    r14
96 y2 =    r15
97
98 y4 =    r12
99
100 /* Local variables (stack frame) */
101 #define frame_XFER      0
102 #define frame_XFER_size (4*4*8)
103 #define frame_SRND      (frame_XFER + frame_XFER_size)
104 #define frame_SRND_size (1*8)
105 #define frame_INP      (frame_SRND + frame_SRND_size)
106 #define frame_INP_size (1*8)
107 #define frame_NBLKS      (frame_INP + frame_INP_size)
108 #define frame_NBLKS_size (1*8)
109 #define frame_RSPSAVE      (frame_NBLKS + frame_NBLKS_size)
110 #define frame_RSPSAVE_size (1*8)
111 #define frame_GPRSAVE      (frame_RSPSAVE + frame_RSPSAVE_size)
112 #define frame_GPRSAVE_size (6*8)
113 #define frame_size (frame_GPRSAVE + frame_GPRSAVE_size)
114
115 #define VMOVDQ vmovdqu /*; assume buffers not aligned  */
116
117 /* addm [mem], reg */
118 /* Add reg to mem using reg-mem add and store */
119 .macro addm p1 p2
120         add     \p2, \p1
121         mov     \p1, \p2
122 .endm
123
124
125 /* COPY_YMM_AND_BSWAP ymm, [mem], byte_flip_mask */
126 /* Load ymm with mem and byte swap each dword */
127 .macro COPY_YMM_AND_BSWAP p1 p2 p3
128         VMOVDQ \p1, \p2
129         vpshufb \p1, \p1, \p3
130 .endm
131 /* rotate_Ys */
132 /* Rotate values of symbols Y0...Y3 */
133 .macro rotate_Ys
134         __Y_ = Y_0
135         Y_0 = Y_1
136         Y_1 = Y_2
137         Y_2 = Y_3
138         Y_3 = __Y_
139 .endm
140
141 /* RotateState */
142 .macro RotateState
143         /* Rotate symbles a..h right */
144         old_h =  h
145         __TMP_ = h
146         h =      g
147         g =      f
148         f =      e
149         e =      d
150         d =      c
151         c =      b
152         b =      a
153         a =      __TMP_
154 .endm
155
156 /* %macro MY_VPALIGNR   YDST, YSRC1, YSRC2, RVAL */
157 /* YDST = {YSRC1, YSRC2} >> RVAL*8 */
158 .macro MY_VPALIGNR YDST, YSRC1, YSRC2, RVAL
159         vperm2f128      \YDST, \YSRC1, \YSRC2, 0x3      /* YDST = {YS1_LO, YS2_HI} */
160         vpalignr        \YDST, \YDST, \YSRC2, \RVAL     /* YDST = {YDS1, YS2} >> RVAL*8 */
161 .endm
162
163 .macro ONE_ROUND_PART1 XFER
164         /* h += Sum1 (e) + Ch (e, f, g) + (k[t] + w[0]);
165          * d += h;
166          * h += Sum0 (a) + Maj (a, b, c);
167          *
168          * Ch(x, y, z) => ((x & y) + (~x & z))
169          * Maj(x, y, z) => ((x & y) + (z & (x ^ y)))
170          */
171
172         mov y3, e
173         add h, [\XFER]
174         and y3, f
175         rorx y0, e, 41
176         rorx y1, e, 18
177         lea h, [h + y3]
178         andn y3, e, g
179         rorx T1, a, 34
180         xor y0, y1
181         lea h, [h + y3]
182 .endm
183 .macro ONE_ROUND_PART2
184         rorx y2, a, 39
185         rorx y1, e, 14
186         mov y3, a
187         xor T1, y2
188         xor y0, y1
189         xor y3, b
190         lea h, [h + y0]
191         mov y0, a
192         rorx y2, a, 28
193         add d, h
194         and y3, c
195         xor T1, y2
196         lea h, [h + y3]
197         lea h, [h + T1]
198         and y0, b
199         lea h, [h + y0]
200 .endm
201
202 .macro ONE_ROUND XFER
203         ONE_ROUND_PART1 \XFER
204         ONE_ROUND_PART2
205 .endm
206
207 .macro FOUR_ROUNDS_AND_SCHED X
208 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 0 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
209
210                 /* Extract w[t-7] */
211                 MY_VPALIGNR     YTMP0, Y_3, Y_2, 8              /* YTMP0 = W[-7] */
212                 /* Calculate w[t-16] + w[t-7] */
213                 vpaddq          YTMP0, YTMP0, Y_0               /* YTMP0 = W[-7] + W[-16] */
214                 /* Extract w[t-15] */
215                 MY_VPALIGNR     YTMP1, Y_1, Y_0, 8              /* YTMP1 = W[-15] */
216
217                 /* Calculate sigma0 */
218
219                 /* Calculate w[t-15] ror 1 */
220                 vpsrlq          YTMP2, YTMP1, 1
221                 vpsllq          YTMP3, YTMP1, (64-1)
222                 vpor            YTMP3, YTMP3, YTMP2             /* YTMP3 = W[-15] ror 1 */
223                 /* Calculate w[t-15] shr 7 */
224                 vpsrlq          YTMP4, YTMP1, 7                 /* YTMP4 = W[-15] >> 7 */
225
226         ONE_ROUND rsp+frame_XFER+0*8+\X*32
227         RotateState
228
229 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 1 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
230
231 /*;;;;;;;;;;;;;;;;;;;;;;;;; */
232
233                 /* Calculate w[t-15] ror 8 */
234                 vpsrlq          YTMP2, YTMP1, 8
235                 vpsllq          YTMP1, YTMP1, (64-8)
236                 vpor            YTMP1, YTMP1, YTMP2             /* YTMP1 = W[-15] ror 8 */
237                 /* XOR the three components */
238                 vpxor           YTMP3, YTMP3, YTMP4             /* YTMP3 = W[-15] ror 1 ^ W[-15] >> 7 */
239                 vpxor           YTMP1, YTMP3, YTMP1             /* YTMP1 = s0 */
240
241
242                 /* Add three components, w[t-16], w[t-7] and sigma0 */
243                 vpaddq          YTMP0, YTMP0, YTMP1             /* YTMP0 = W[-16] + W[-7] + s0 */
244                 /* Move to appropriate lanes for calculating w[16] and w[17] */
245                 vperm2f128      Y_0, YTMP0, YTMP0, 0x0          /* Y_0 = W[-16] + W[-7] + s0 {BABA} */
246                 /* Move to appropriate lanes for calculating w[18] and w[19] */
247                 vpand           YTMP0, YTMP0, MASK_YMM_LO       /* YTMP0 = W[-16] + W[-7] + s0 {DC00} */
248
249                 /* Calculate w[16] and w[17] in both 128 bit lanes */
250
251                 /* Calculate sigma1 for w[16] and w[17] on both 128 bit lanes */
252                 vperm2f128      YTMP2, Y_3, Y_3, 0x11           /* YTMP2 = W[-2] {BABA} */
253                 vpsrlq          YTMP4, YTMP2, 6                 /* YTMP4 = W[-2] >> 6 {BABA} */
254
255         ONE_ROUND rsp+frame_XFER+1*8+\X*32
256         RotateState
257
258 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 2 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
259
260 /*;;;;;;;;;;;;;;;;;;;;;;;;; */
261
262
263                 vpsrlq          YTMP3, YTMP2, 19                /* YTMP3 = W[-2] >> 19 {BABA} */
264                 vpsllq          YTMP1, YTMP2, (64-19)           /* YTMP1 = W[-2] << 19 {BABA} */
265                 vpor            YTMP3, YTMP3, YTMP1             /* YTMP3 = W[-2] ror 19 {BABA} */
266                 vpxor           YTMP4, YTMP4, YTMP3             /* YTMP4 = W[-2] ror 19 ^ W[-2] >> 6 {BABA} */
267                 vpsrlq          YTMP3, YTMP2, 61                /* YTMP3 = W[-2] >> 61 {BABA} */
268                 vpsllq          YTMP1, YTMP2, (64-61)           /* YTMP1 = W[-2] << 61 {BABA} */
269                 vpor            YTMP3, YTMP3, YTMP1             /* YTMP3 = W[-2] ror 61 {BABA} */
270                 vpxor           YTMP4, YTMP4, YTMP3             /* YTMP4 = s1 = (W[-2] ror 19) ^ (W[-2] ror 61) ^ (W[-2] >> 6) {BABA} */
271
272                 /* Add sigma1 to the other compunents to get w[16] and w[17] */
273                 vpaddq          Y_0, Y_0, YTMP4                 /* Y_0 = {W[1], W[0], W[1], W[0]} */
274
275                 /* Calculate sigma1 for w[18] and w[19] for upper 128 bit lane */
276                 vpsrlq          YTMP4, Y_0, 6                   /* YTMP4 = W[-2] >> 6 {DC--} */
277
278         ONE_ROUND rsp+frame_XFER+2*8+\X*32
279         RotateState
280
281 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 3 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
282
283 /*;;;;;;;;;;;;;;;;;;;;;;;;; */
284
285                 vpsrlq          YTMP3, Y_0, 19                  /* YTMP3 = W[-2] >> 19 {DC--} */
286                 vpsllq          YTMP1, Y_0, (64-19)             /* YTMP1 = W[-2] << 19 {DC--} */
287                 vpor            YTMP3, YTMP3, YTMP1             /* YTMP3 = W[-2] ror 19 {DC--} */
288                 vpxor           YTMP4, YTMP4, YTMP3             /* YTMP4 = W[-2] ror 19 ^ W[-2] >> 6 {DC--} */
289                 vpsrlq          YTMP3, Y_0, 61                  /* YTMP3 = W[-2] >> 61 {DC--} */
290                 vpsllq          YTMP1, Y_0, (64-61)             /* YTMP1 = W[-2] << 61 {DC--} */
291                 vpor            YTMP3, YTMP3, YTMP1             /* YTMP3 = W[-2] ror 61 {DC--} */
292                 vpxor           YTMP4, YTMP4, YTMP3             /* YTMP4 = s1 = (W[-2] ror 19) ^ (W[-2] ror 61) ^ (W[-2] >> 6) {DC--} */
293
294                 /* Add the sigma0 + w[t-7] + w[t-16] for w[18] and w[19] to newly calculated sigma1 to get w[18] and w[19] */
295                 vpaddq          YTMP2, YTMP0, YTMP4             /* YTMP2 = {W[3], W[2], --, --} */
296
297                 /* Form w[19, w[18], w17], w[16] */
298                 vpblendd                Y_0, Y_0, YTMP2, 0xF0           /* Y_0 = {W[3], W[2], W[1], W[0]} */
299
300         ONE_ROUND_PART1 rsp+frame_XFER+3*8+\X*32
301                 vpaddq          XFER, Y_0, [TBL + (4+\X)*32]
302                 vmovdqa         [rsp + frame_XFER + \X*32], XFER
303         ONE_ROUND_PART2
304         RotateState
305         rotate_Ys
306 .endm
307
308 .macro DO_4ROUNDS X
309
310 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 0 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
311
312         ONE_ROUND rsp+frame_XFER+0*8+\X*32
313         RotateState
314
315 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 1 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
316
317         ONE_ROUND rsp+frame_XFER+1*8+\X*32
318         RotateState
319
320 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 2 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
321
322         ONE_ROUND rsp+frame_XFER+2*8+\X*32
323         RotateState
324
325 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 3 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
326
327         ONE_ROUND rsp+frame_XFER+3*8+\X*32
328         RotateState
329
330 .endm
331
332 /*
333 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
334 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
335 ; void sha512_rorx(const void* M, void* D, uint64_t L);
336 ; Purpose: Updates the SHA512 digest stored at D with the message stored in M.
337 ; The size of the message pointed to by M must be an integer multiple of SHA512
338 ;   message blocks.
339 ; L is the message length in SHA512 blocks
340 */
341 .globl _gcry_sha512_transform_amd64_avx2
342 ELF(.type _gcry_sha512_transform_amd64_avx2,@function;)
343 .align 16
344 _gcry_sha512_transform_amd64_avx2:
345         CFI_STARTPROC()
346         xor eax, eax
347
348         cmp rdx, 0
349         je .Lnowork
350
351         vzeroupper
352
353         /* Allocate Stack Space */
354         mov     rax, rsp
355         CFI_DEF_CFA_REGISTER(rax);
356         sub     rsp, frame_size
357         and     rsp, ~(0x40 - 1)
358         mov     [rsp + frame_RSPSAVE], rax
359         CFI_CFA_ON_STACK(frame_RSPSAVE, 0)
360
361         /* Save GPRs */
362         mov     [rsp + frame_GPRSAVE + 8 * 0], rbp
363         mov     [rsp + frame_GPRSAVE + 8 * 1], rbx
364         mov     [rsp + frame_GPRSAVE + 8 * 2], r12
365         mov     [rsp + frame_GPRSAVE + 8 * 3], r13
366         mov     [rsp + frame_GPRSAVE + 8 * 4], r14
367         mov     [rsp + frame_GPRSAVE + 8 * 5], r15
368         CFI_REG_ON_STACK(rbp, frame_GPRSAVE + 8 * 0)
369         CFI_REG_ON_STACK(rbx, frame_GPRSAVE + 8 * 1)
370         CFI_REG_ON_STACK(r12, frame_GPRSAVE + 8 * 2)
371         CFI_REG_ON_STACK(r13, frame_GPRSAVE + 8 * 3)
372         CFI_REG_ON_STACK(r14, frame_GPRSAVE + 8 * 4)
373         CFI_REG_ON_STACK(r15, frame_GPRSAVE + 8 * 5)
374
375         mov     [rsp + frame_NBLKS], NUM_BLKS
376
377         /*; load initial digest */
378         mov     a,[8*0 + CTX]
379         mov     b,[8*1 + CTX]
380         mov     c,[8*2 + CTX]
381         mov     d,[8*3 + CTX]
382         mov     e,[8*4 + CTX]
383         mov     f,[8*5 + CTX]
384         mov     g,[8*6 + CTX]
385         mov     h,[8*7 + CTX]
386
387         vmovdqa BYTE_FLIP_MASK, [.LPSHUFFLE_BYTE_FLIP_MASK ADD_RIP]
388         vmovdqa MASK_YMM_LO, [.LMASK_YMM_LO ADD_RIP]
389
390         lea     TBL,[.LK512 ADD_RIP]
391
392         /*; byte swap first 16 dwords */
393         COPY_YMM_AND_BSWAP      Y_0, [INP + 0*32], BYTE_FLIP_MASK
394         COPY_YMM_AND_BSWAP      Y_1, [INP + 1*32], BYTE_FLIP_MASK
395         COPY_YMM_AND_BSWAP      Y_2, [INP + 2*32], BYTE_FLIP_MASK
396         COPY_YMM_AND_BSWAP      Y_3, [INP + 3*32], BYTE_FLIP_MASK
397
398         add     INP, 128
399         mov     [rsp + frame_INP], INP
400
401         vpaddq  XFER, Y_0, [TBL + 0*32]
402         vmovdqa [rsp + frame_XFER + 0*32], XFER
403         vpaddq  XFER, Y_1, [TBL + 1*32]
404         vmovdqa [rsp + frame_XFER + 1*32], XFER
405         vpaddq  XFER, Y_2, [TBL + 2*32]
406         vmovdqa [rsp + frame_XFER + 2*32], XFER
407         vpaddq  XFER, Y_3, [TBL + 3*32]
408         vmovdqa [rsp + frame_XFER + 3*32], XFER
409
410         /*; schedule 64 input dwords, by doing 12 rounds of 4 each */
411         movq    [rsp + frame_SRND],4
412
413 .align 16
414 .Loop0:
415         FOUR_ROUNDS_AND_SCHED 0
416         FOUR_ROUNDS_AND_SCHED 1
417         FOUR_ROUNDS_AND_SCHED 2
418         FOUR_ROUNDS_AND_SCHED 3
419         add     TBL, 4*32
420
421         subq    [rsp + frame_SRND], 1
422         jne     .Loop0
423
424         subq    [rsp + frame_NBLKS], 1
425         je      .Ldone_hash
426
427         mov     INP, [rsp + frame_INP]
428
429         lea     TBL,[.LK512 ADD_RIP]
430
431         /* load next block and byte swap */
432         COPY_YMM_AND_BSWAP      Y_0, [INP + 0*32], BYTE_FLIP_MASK
433         COPY_YMM_AND_BSWAP      Y_1, [INP + 1*32], BYTE_FLIP_MASK
434         COPY_YMM_AND_BSWAP      Y_2, [INP + 2*32], BYTE_FLIP_MASK
435         COPY_YMM_AND_BSWAP      Y_3, [INP + 3*32], BYTE_FLIP_MASK
436
437         add     INP, 128
438         mov     [rsp + frame_INP], INP
439
440         DO_4ROUNDS 0
441         vpaddq  XFER, Y_0, [TBL + 0*32]
442         vmovdqa [rsp + frame_XFER + 0*32], XFER
443         DO_4ROUNDS 1
444         vpaddq  XFER, Y_1, [TBL + 1*32]
445         vmovdqa [rsp + frame_XFER + 1*32], XFER
446         DO_4ROUNDS 2
447         vpaddq  XFER, Y_2, [TBL + 2*32]
448         vmovdqa [rsp + frame_XFER + 2*32], XFER
449         DO_4ROUNDS 3
450         vpaddq  XFER, Y_3, [TBL + 3*32]
451         vmovdqa [rsp + frame_XFER + 3*32], XFER
452
453         addm    [8*0 + CTX],a
454         addm    [8*1 + CTX],b
455         addm    [8*2 + CTX],c
456         addm    [8*3 + CTX],d
457         addm    [8*4 + CTX],e
458         addm    [8*5 + CTX],f
459         addm    [8*6 + CTX],g
460         addm    [8*7 + CTX],h
461
462         /*; schedule 64 input dwords, by doing 12 rounds of 4 each */
463         movq    [rsp + frame_SRND],4
464
465         jmp     .Loop0
466
467 .Ldone_hash:
468         vzeroall
469
470         DO_4ROUNDS 0
471         vmovdqa [rsp + frame_XFER + 0*32], ymm0 /* burn stack */
472         DO_4ROUNDS 1
473         vmovdqa [rsp + frame_XFER + 1*32], ymm0 /* burn stack */
474         DO_4ROUNDS 2
475         vmovdqa [rsp + frame_XFER + 2*32], ymm0 /* burn stack */
476         DO_4ROUNDS 3
477         vmovdqa [rsp + frame_XFER + 3*32], ymm0 /* burn stack */
478
479         addm    [8*0 + CTX],a
480         xor     eax, eax /* burn stack */
481         addm    [8*1 + CTX],b
482         addm    [8*2 + CTX],c
483         addm    [8*3 + CTX],d
484         addm    [8*4 + CTX],e
485         addm    [8*5 + CTX],f
486         addm    [8*6 + CTX],g
487         addm    [8*7 + CTX],h
488
489         /* Restore GPRs */
490         mov     rbp, [rsp + frame_GPRSAVE + 8 * 0]
491         mov     rbx, [rsp + frame_GPRSAVE + 8 * 1]
492         mov     r12, [rsp + frame_GPRSAVE + 8 * 2]
493         mov     r13, [rsp + frame_GPRSAVE + 8 * 3]
494         mov     r14, [rsp + frame_GPRSAVE + 8 * 4]
495         mov     r15, [rsp + frame_GPRSAVE + 8 * 5]
496         CFI_RESTORE(rbp)
497         CFI_RESTORE(rbx)
498         CFI_RESTORE(r12)
499         CFI_RESTORE(r13)
500         CFI_RESTORE(r14)
501         CFI_RESTORE(r15)
502
503         /* Restore Stack Pointer */
504         mov     rsp, [rsp + frame_RSPSAVE]
505         CFI_DEF_CFA_REGISTER(rsp)
506
507 .Lnowork:
508         ret
509         CFI_ENDPROC()
510
511 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
512 /*;; Binary Data */
513
514 .align 64
515 /* K[t] used in SHA512 hashing */
516 .LK512:
517         .quad   0x428a2f98d728ae22,0x7137449123ef65cd
518         .quad   0xb5c0fbcfec4d3b2f,0xe9b5dba58189dbbc
519         .quad   0x3956c25bf348b538,0x59f111f1b605d019
520         .quad   0x923f82a4af194f9b,0xab1c5ed5da6d8118
521         .quad   0xd807aa98a3030242,0x12835b0145706fbe
522         .quad   0x243185be4ee4b28c,0x550c7dc3d5ffb4e2
523         .quad   0x72be5d74f27b896f,0x80deb1fe3b1696b1
524         .quad   0x9bdc06a725c71235,0xc19bf174cf692694
525         .quad   0xe49b69c19ef14ad2,0xefbe4786384f25e3
526         .quad   0x0fc19dc68b8cd5b5,0x240ca1cc77ac9c65
527         .quad   0x2de92c6f592b0275,0x4a7484aa6ea6e483
528         .quad   0x5cb0a9dcbd41fbd4,0x76f988da831153b5
529         .quad   0x983e5152ee66dfab,0xa831c66d2db43210
530         .quad   0xb00327c898fb213f,0xbf597fc7beef0ee4
531         .quad   0xc6e00bf33da88fc2,0xd5a79147930aa725
532         .quad   0x06ca6351e003826f,0x142929670a0e6e70
533         .quad   0x27b70a8546d22ffc,0x2e1b21385c26c926
534         .quad   0x4d2c6dfc5ac42aed,0x53380d139d95b3df
535         .quad   0x650a73548baf63de,0x766a0abb3c77b2a8
536         .quad   0x81c2c92e47edaee6,0x92722c851482353b
537         .quad   0xa2bfe8a14cf10364,0xa81a664bbc423001
538         .quad   0xc24b8b70d0f89791,0xc76c51a30654be30
539         .quad   0xd192e819d6ef5218,0xd69906245565a910
540         .quad   0xf40e35855771202a,0x106aa07032bbd1b8
541         .quad   0x19a4c116b8d2d0c8,0x1e376c085141ab53
542         .quad   0x2748774cdf8eeb99,0x34b0bcb5e19b48a8
543         .quad   0x391c0cb3c5c95a63,0x4ed8aa4ae3418acb
544         .quad   0x5b9cca4f7763e373,0x682e6ff3d6b2b8a3
545         .quad   0x748f82ee5defb2fc,0x78a5636f43172f60
546         .quad   0x84c87814a1f0ab72,0x8cc702081a6439ec
547         .quad   0x90befffa23631e28,0xa4506cebde82bde9
548         .quad   0xbef9a3f7b2c67915,0xc67178f2e372532b
549         .quad   0xca273eceea26619c,0xd186b8c721c0c207
550         .quad   0xeada7dd6cde0eb1e,0xf57d4f7fee6ed178
551         .quad   0x06f067aa72176fba,0x0a637dc5a2c898a6
552         .quad   0x113f9804bef90dae,0x1b710b35131c471b
553         .quad   0x28db77f523047d84,0x32caab7b40c72493
554         .quad   0x3c9ebe0a15c9bebc,0x431d67c49c100d4c
555         .quad   0x4cc5d4becb3e42b6,0x597f299cfc657e2a
556         .quad   0x5fcb6fab3ad6faec,0x6c44198c4a475817
557
558 .align 32
559
560 /* Mask for byte-swapping a couple of qwords in an XMM register using (v)pshufb. */
561 .LPSHUFFLE_BYTE_FLIP_MASK: .octa 0x08090a0b0c0d0e0f0001020304050607
562                            .octa 0x18191a1b1c1d1e1f1011121314151617
563
564 .LMASK_YMM_LO:             .octa 0x00000000000000000000000000000000
565                            .octa 0xFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
566
567 #endif
568 #endif