mpi/ec: fix when 'unsigned long' is 32-bit but limb size is 64-bit
[libgcrypt.git] / cipher / sha512-avx2-bmi2-amd64.S
1 /*
2 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
3 ; Copyright (c) 2012, Intel Corporation
4 ;
5 ; All rights reserved.
6 ;
7 ; Redistribution and use in source and binary forms, with or without
8 ; modification, are permitted provided that the following conditions are
9 ; met:
10 ;
11 ; * Redistributions of source code must retain the above copyright
12 ;   notice, this list of conditions and the following disclaimer.
13 ;
14 ; * Redistributions in binary form must reproduce the above copyright
15 ;   notice, this list of conditions and the following disclaimer in the
16 ;   documentation and/or other materials provided with the
17 ;   distribution.
18 ;
19 ; * Neither the name of the Intel Corporation nor the names of its
20 ;   contributors may be used to endorse or promote products derived from
21 ;   this software without specific prior written permission.
22 ;
23 ;
24 ; THIS SOFTWARE IS PROVIDED BY INTEL CORPORATION "AS IS" AND ANY
25 ; EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
26 ; IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
27 ; PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL INTEL CORPORATION OR
28 ; CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
29 ; EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
30 ; PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
31 ; PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
32 ; LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
33 ; NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
34 ; SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
35 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
36 ; This code schedules 1 blocks at a time, with 4 lanes per block
37 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
38 */
39 /*
40  * Conversion to GAS assembly and integration to libgcrypt
41  *  by Jussi Kivilinna <jussi.kivilinna@iki.fi>
42  */
43
44 #ifdef __x86_64
45 #include <config.h>
46 #if (defined(HAVE_COMPATIBLE_GCC_AMD64_PLATFORM_AS) || \
47      defined(HAVE_COMPATIBLE_GCC_WIN64_PLATFORM_AS)) && \
48     defined(HAVE_INTEL_SYNTAX_PLATFORM_AS) && \
49     defined(HAVE_GCC_INLINE_ASM_AVX2) && defined(HAVE_GCC_INLINE_ASM_BMI2) && \
50     defined(USE_SHA512)
51
52 #ifdef __PIC__
53 #  define ADD_RIP +rip
54 #else
55 #  define ADD_RIP
56 #endif
57
58 #ifdef HAVE_COMPATIBLE_GCC_AMD64_PLATFORM_AS
59 # define ELF(...) __VA_ARGS__
60 #else
61 # define ELF(...) /*_*/
62 #endif
63
64 .intel_syntax noprefix
65
66 .text
67
68 /* Virtual Registers */
69 Y_0 = ymm4
70 Y_1 = ymm5
71 Y_2 = ymm6
72 Y_3 = ymm7
73
74 YTMP0 = ymm0
75 YTMP1 = ymm1
76 YTMP2 = ymm2
77 YTMP3 = ymm3
78 YTMP4 = ymm8
79 XFER =  YTMP0
80
81 BYTE_FLIP_MASK =  ymm9
82
83 INP =         rdi /* 1st arg */
84 CTX =         rsi /* 2nd arg */
85 NUM_BLKS =    rdx /* 3rd arg */
86 c =           rcx
87 d =           r8
88 e =           rdx
89 y3 =          rdi
90
91 TBL =   rbp
92
93 a =     rax
94 b =     rbx
95
96 f =     r9
97 g =     r10
98 h =     r11
99 old_h = r11
100
101 T1 =    r12
102 y0 =    r13
103 y1 =    r14
104 y2 =    r15
105
106 y4 =    r12
107
108 /* Local variables (stack frame) */
109 #define frame_XFER      0
110 #define frame_XFER_size (4*8)
111 #define frame_SRND      (frame_XFER + frame_XFER_size)
112 #define frame_SRND_size (1*8)
113 #define frame_INP      (frame_SRND + frame_SRND_size)
114 #define frame_INP_size (1*8)
115 #define frame_INPEND      (frame_INP + frame_INP_size)
116 #define frame_INPEND_size (1*8)
117 #define frame_RSPSAVE      (frame_INPEND + frame_INPEND_size)
118 #define frame_RSPSAVE_size (1*8)
119 #define frame_GPRSAVE      (frame_RSPSAVE + frame_RSPSAVE_size)
120 #define frame_GPRSAVE_size (6*8)
121 #define frame_size (frame_GPRSAVE + frame_GPRSAVE_size)
122
123 #define VMOVDQ vmovdqu /*; assume buffers not aligned  */
124
125 /* addm [mem], reg */
126 /* Add reg to mem using reg-mem add and store */
127 .macro addm p1 p2
128         add     \p2, \p1
129         mov     \p1, \p2
130 .endm
131
132
133 /* COPY_YMM_AND_BSWAP ymm, [mem], byte_flip_mask */
134 /* Load ymm with mem and byte swap each dword */
135 .macro COPY_YMM_AND_BSWAP p1 p2 p3
136         VMOVDQ \p1, \p2
137         vpshufb \p1, \p1, \p3
138 .endm
139 /* rotate_Ys */
140 /* Rotate values of symbols Y0...Y3 */
141 .macro rotate_Ys
142         __Y_ = Y_0
143         Y_0 = Y_1
144         Y_1 = Y_2
145         Y_2 = Y_3
146         Y_3 = __Y_
147 .endm
148
149 /* RotateState */
150 .macro RotateState
151         /* Rotate symbles a..h right */
152         old_h =  h
153         __TMP_ = h
154         h =      g
155         g =      f
156         f =      e
157         e =      d
158         d =      c
159         c =      b
160         b =      a
161         a =      __TMP_
162 .endm
163
164 /* %macro MY_VPALIGNR   YDST, YSRC1, YSRC2, RVAL */
165 /* YDST = {YSRC1, YSRC2} >> RVAL*8 */
166 .macro MY_VPALIGNR YDST, YSRC1, YSRC2, RVAL
167         vperm2f128      \YDST, \YSRC1, \YSRC2, 0x3      /* YDST = {YS1_LO, YS2_HI} */
168         vpalignr        \YDST, \YDST, \YSRC2, \RVAL     /* YDST = {YDS1, YS2} >> RVAL*8 */
169 .endm
170
171 .macro FOUR_ROUNDS_AND_SCHED
172 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 0 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
173
174                 /* Extract w[t-7] */
175                 MY_VPALIGNR     YTMP0, Y_3, Y_2, 8              /* YTMP0 = W[-7] */
176                 /* Calculate w[t-16] + w[t-7] */
177                 vpaddq          YTMP0, YTMP0, Y_0               /* YTMP0 = W[-7] + W[-16] */
178                 /* Extract w[t-15] */
179                 MY_VPALIGNR     YTMP1, Y_1, Y_0, 8              /* YTMP1 = W[-15] */
180
181                 /* Calculate sigma0 */
182
183                 /* Calculate w[t-15] ror 1 */
184                 vpsrlq          YTMP2, YTMP1, 1
185                 vpsllq          YTMP3, YTMP1, (64-1)
186                 vpor            YTMP3, YTMP3, YTMP2             /* YTMP3 = W[-15] ror 1 */
187                 /* Calculate w[t-15] shr 7 */
188                 vpsrlq          YTMP4, YTMP1, 7                 /* YTMP4 = W[-15] >> 7 */
189
190         mov     y3, a           /* y3 = a                                       ; MAJA   */
191         rorx    y0, e, 41       /* y0 = e >> 41                                 ; S1A */
192         rorx    y1, e, 18       /* y1 = e >> 18                                 ; S1B */
193
194         add     h, [rsp+frame_XFER+0*8]         /* h = k + w + h                                ; --     */
195         or      y3, c           /* y3 = a|c                                     ; MAJA   */
196         mov     y2, f           /* y2 = f                                       ; CH     */
197         rorx    T1, a, 34       /* T1 = a >> 34                                 ; S0B */
198
199         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18)                       ; S1 */
200         xor     y2, g           /* y2 = f^g                                     ; CH     */
201         rorx    y1, e, 14       /* y1 = (e >> 14)                                       ; S1 */
202
203         and     y2, e           /* y2 = (f^g)&e                                 ; CH     */
204         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18) ^ (e>>14)             ; S1 */
205         rorx    y1, a, 39       /* y1 = a >> 39                                 ; S0A */
206         add     d, h            /* d = k + w + h + d                            ; --     */
207
208         and     y3, b           /* y3 = (a|c)&b                                 ; MAJA   */
209         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34)                       ; S0 */
210         rorx    T1, a, 28       /* T1 = (a >> 28)                                       ; S0 */
211
212         xor     y2, g           /* y2 = CH = ((f^g)&e)^g                        ; CH     */
213         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34) ^ (a>>28)             ; S0 */
214         mov     T1, a           /* T1 = a                                       ; MAJB   */
215         and     T1, c           /* T1 = a&c                                     ; MAJB   */
216
217         add     y2, y0          /* y2 = S1 + CH                                 ; --     */
218         or      y3, T1          /* y3 = MAJ = (a|c)&b)|(a&c)                    ; MAJ    */
219         add     h, y1           /* h = k + w + h + S0                           ; --     */
220
221         add     d, y2           /* d = k + w + h + d + S1 + CH = d + t1         ; --     */
222
223         add     h, y2           /* h = k + w + h + S0 + S1 + CH = t1 + S0       ; --     */
224         add     h, y3           /* h = t1 + S0 + MAJ                            ; --     */
225
226 RotateState
227
228 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 1 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
229
230 /*;;;;;;;;;;;;;;;;;;;;;;;;; */
231
232                 /* Calculate w[t-15] ror 8 */
233                 vpsrlq          YTMP2, YTMP1, 8
234                 vpsllq          YTMP1, YTMP1, (64-8)
235                 vpor            YTMP1, YTMP1, YTMP2             /* YTMP1 = W[-15] ror 8 */
236                 /* XOR the three components */
237                 vpxor           YTMP3, YTMP3, YTMP4             /* YTMP3 = W[-15] ror 1 ^ W[-15] >> 7 */
238                 vpxor           YTMP1, YTMP3, YTMP1             /* YTMP1 = s0 */
239
240
241                 /* Add three components, w[t-16], w[t-7] and sigma0 */
242                 vpaddq          YTMP0, YTMP0, YTMP1             /* YTMP0 = W[-16] + W[-7] + s0 */
243                 /* Move to appropriate lanes for calculating w[16] and w[17] */
244                 vperm2f128      Y_0, YTMP0, YTMP0, 0x0          /* Y_0 = W[-16] + W[-7] + s0 {BABA} */
245                 /* Move to appropriate lanes for calculating w[18] and w[19] */
246                 vpand           YTMP0, YTMP0, [.LMASK_YMM_LO ADD_RIP]   /* YTMP0 = W[-16] + W[-7] + s0 {DC00} */
247
248                 /* Calculate w[16] and w[17] in both 128 bit lanes */
249
250                 /* Calculate sigma1 for w[16] and w[17] on both 128 bit lanes */
251                 vperm2f128      YTMP2, Y_3, Y_3, 0x11           /* YTMP2 = W[-2] {BABA} */
252                 vpsrlq          YTMP4, YTMP2, 6                 /* YTMP4 = W[-2] >> 6 {BABA} */
253
254
255         mov     y3, a           /* y3 = a                                       ; MAJA   */
256         rorx    y0, e, 41       /* y0 = e >> 41                                 ; S1A */
257         rorx    y1, e, 18       /* y1 = e >> 18                                 ; S1B */
258         add     h, [rsp+frame_XFER+1*8]         /* h = k + w + h                                ; --     */
259         or      y3, c           /* y3 = a|c                                     ; MAJA   */
260
261
262         mov     y2, f           /* y2 = f                                       ; CH     */
263         rorx    T1, a, 34       /* T1 = a >> 34                                 ; S0B */
264         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18)                       ; S1 */
265         xor     y2, g           /* y2 = f^g                                     ; CH     */
266
267
268         rorx    y1, e, 14       /* y1 = (e >> 14)                                       ; S1 */
269         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18) ^ (e>>14)             ; S1 */
270         rorx    y1, a, 39       /* y1 = a >> 39                                 ; S0A */
271         and     y2, e           /* y2 = (f^g)&e                                 ; CH     */
272         add     d, h            /* d = k + w + h + d                            ; --     */
273
274         and     y3, b           /* y3 = (a|c)&b                                 ; MAJA   */
275         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34)                       ; S0 */
276
277         rorx    T1, a, 28       /* T1 = (a >> 28)                                       ; S0 */
278         xor     y2, g           /* y2 = CH = ((f^g)&e)^g                        ; CH     */
279
280         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34) ^ (a>>28)             ; S0 */
281         mov     T1, a           /* T1 = a                                       ; MAJB   */
282         and     T1, c           /* T1 = a&c                                     ; MAJB   */
283         add     y2, y0          /* y2 = S1 + CH                                 ; --     */
284
285         or      y3, T1          /* y3 = MAJ = (a|c)&b)|(a&c)                    ; MAJ    */
286         add     h, y1           /* h = k + w + h + S0                           ; --     */
287
288         add     d, y2           /* d = k + w + h + d + S1 + CH = d + t1         ; --     */
289         add     h, y2           /* h = k + w + h + S0 + S1 + CH = t1 + S0       ; --     */
290         add     h, y3           /* h = t1 + S0 + MAJ                            ; --     */
291
292 RotateState
293
294
295
296
297 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 2 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
298
299 /*;;;;;;;;;;;;;;;;;;;;;;;;; */
300
301
302                 vpsrlq          YTMP3, YTMP2, 19                /* YTMP3 = W[-2] >> 19 {BABA} */
303                 vpsllq          YTMP1, YTMP2, (64-19)           /* YTMP1 = W[-2] << 19 {BABA} */
304                 vpor            YTMP3, YTMP3, YTMP1             /* YTMP3 = W[-2] ror 19 {BABA} */
305                 vpxor           YTMP4, YTMP4, YTMP3             /* YTMP4 = W[-2] ror 19 ^ W[-2] >> 6 {BABA} */
306                 vpsrlq          YTMP3, YTMP2, 61                /* YTMP3 = W[-2] >> 61 {BABA} */
307                 vpsllq          YTMP1, YTMP2, (64-61)           /* YTMP1 = W[-2] << 61 {BABA} */
308                 vpor            YTMP3, YTMP3, YTMP1             /* YTMP3 = W[-2] ror 61 {BABA} */
309                 vpxor           YTMP4, YTMP4, YTMP3             /* YTMP4 = s1 = (W[-2] ror 19) ^ (W[-2] ror 61) ^ (W[-2] >> 6) {BABA} */
310
311                 /* Add sigma1 to the other compunents to get w[16] and w[17] */
312                 vpaddq          Y_0, Y_0, YTMP4                 /* Y_0 = {W[1], W[0], W[1], W[0]} */
313
314                 /* Calculate sigma1 for w[18] and w[19] for upper 128 bit lane */
315                 vpsrlq          YTMP4, Y_0, 6                   /* YTMP4 = W[-2] >> 6 {DC--} */
316
317         mov     y3, a           /* y3 = a                                       ; MAJA   */
318         rorx    y0, e, 41       /* y0 = e >> 41                                 ; S1A */
319         add     h, [rsp+frame_XFER+2*8]         /* h = k + w + h                                ; --     */
320
321         rorx    y1, e, 18       /* y1 = e >> 18                                 ; S1B */
322         or      y3, c           /* y3 = a|c                                     ; MAJA   */
323         mov     y2, f           /* y2 = f                                       ; CH     */
324         xor     y2, g           /* y2 = f^g                                     ; CH     */
325
326         rorx    T1, a, 34       /* T1 = a >> 34                                 ; S0B */
327         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18)                       ; S1 */
328         and     y2, e           /* y2 = (f^g)&e                                 ; CH     */
329
330         rorx    y1, e, 14       /* y1 = (e >> 14)                                       ; S1 */
331         add     d, h            /* d = k + w + h + d                            ; --     */
332         and     y3, b           /* y3 = (a|c)&b                                 ; MAJA   */
333
334         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18) ^ (e>>14)             ; S1 */
335         rorx    y1, a, 39       /* y1 = a >> 39                                 ; S0A */
336         xor     y2, g           /* y2 = CH = ((f^g)&e)^g                        ; CH     */
337
338         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34)                       ; S0 */
339         rorx    T1, a, 28       /* T1 = (a >> 28)                                       ; S0 */
340
341         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34) ^ (a>>28)             ; S0 */
342         mov     T1, a           /* T1 = a                                       ; MAJB   */
343         and     T1, c           /* T1 = a&c                                     ; MAJB   */
344         add     y2, y0          /* y2 = S1 + CH                                 ; --     */
345
346         or      y3, T1          /* y3 = MAJ = (a|c)&b)|(a&c)                    ; MAJ    */
347         add     h, y1           /* h = k + w + h + S0                           ; --     */
348         add     d, y2           /* d = k + w + h + d + S1 + CH = d + t1         ; --     */
349         add     h, y2           /* h = k + w + h + S0 + S1 + CH = t1 + S0       ; --     */
350
351         add     h, y3           /* h = t1 + S0 + MAJ                            ; --     */
352
353 RotateState
354
355 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 3 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
356
357 /*;;;;;;;;;;;;;;;;;;;;;;;;; */
358
359                 vpsrlq          YTMP3, Y_0, 19                  /* YTMP3 = W[-2] >> 19 {DC--} */
360                 vpsllq          YTMP1, Y_0, (64-19)             /* YTMP1 = W[-2] << 19 {DC--} */
361                 vpor            YTMP3, YTMP3, YTMP1             /* YTMP3 = W[-2] ror 19 {DC--} */
362                 vpxor           YTMP4, YTMP4, YTMP3             /* YTMP4 = W[-2] ror 19 ^ W[-2] >> 6 {DC--} */
363                 vpsrlq          YTMP3, Y_0, 61                  /* YTMP3 = W[-2] >> 61 {DC--} */
364                 vpsllq          YTMP1, Y_0, (64-61)             /* YTMP1 = W[-2] << 61 {DC--} */
365                 vpor            YTMP3, YTMP3, YTMP1             /* YTMP3 = W[-2] ror 61 {DC--} */
366                 vpxor           YTMP4, YTMP4, YTMP3             /* YTMP4 = s1 = (W[-2] ror 19) ^ (W[-2] ror 61) ^ (W[-2] >> 6) {DC--} */
367
368                 /* Add the sigma0 + w[t-7] + w[t-16] for w[18] and w[19] to newly calculated sigma1 to get w[18] and w[19] */
369                 vpaddq          YTMP2, YTMP0, YTMP4             /* YTMP2 = {W[3], W[2], --, --} */
370
371                 /* Form w[19, w[18], w17], w[16] */
372                 vpblendd                Y_0, Y_0, YTMP2, 0xF0           /* Y_0 = {W[3], W[2], W[1], W[0]} */
373 /*              vperm2f128              Y_0, Y_0, YTMP2, 0x30 */
374
375         mov     y3, a           /* y3 = a                                       ; MAJA   */
376         rorx    y0, e, 41       /* y0 = e >> 41                                 ; S1A */
377         rorx    y1, e, 18       /* y1 = e >> 18                                 ; S1B */
378         add     h, [rsp+frame_XFER+3*8]         /* h = k + w + h                                ; --     */
379         or      y3, c           /* y3 = a|c                                     ; MAJA   */
380
381
382         mov     y2, f           /* y2 = f                                       ; CH     */
383         rorx    T1, a, 34       /* T1 = a >> 34                                 ; S0B */
384         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18)                       ; S1 */
385         xor     y2, g           /* y2 = f^g                                     ; CH     */
386
387
388         rorx    y1, e, 14       /* y1 = (e >> 14)                                       ; S1 */
389         and     y2, e           /* y2 = (f^g)&e                                 ; CH     */
390         add     d, h            /* d = k + w + h + d                            ; --     */
391         and     y3, b           /* y3 = (a|c)&b                                 ; MAJA   */
392
393         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18) ^ (e>>14)             ; S1 */
394         xor     y2, g           /* y2 = CH = ((f^g)&e)^g                        ; CH     */
395
396         rorx    y1, a, 39       /* y1 = a >> 39                                 ; S0A */
397         add     y2, y0          /* y2 = S1 + CH                                 ; --     */
398
399         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34)                       ; S0 */
400         add     d, y2           /* d = k + w + h + d + S1 + CH = d + t1         ; --     */
401
402         rorx    T1, a, 28       /* T1 = (a >> 28)                                       ; S0 */
403
404         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34) ^ (a>>28)             ; S0 */
405         mov     T1, a           /* T1 = a                                       ; MAJB   */
406         and     T1, c           /* T1 = a&c                                     ; MAJB   */
407         or      y3, T1          /* y3 = MAJ = (a|c)&b)|(a&c)                    ; MAJ    */
408
409         add     h, y1           /* h = k + w + h + S0                           ; --     */
410         add     h, y2           /* h = k + w + h + S0 + S1 + CH = t1 + S0       ; --     */
411         add     h, y3           /* h = t1 + S0 + MAJ                            ; --     */
412
413 RotateState
414
415 rotate_Ys
416 .endm
417
418 .macro DO_4ROUNDS
419
420 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 0 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
421
422         mov     y2, f           /* y2 = f                                       ; CH     */
423         rorx    y0, e, 41       /* y0 = e >> 41                                 ; S1A */
424         rorx    y1, e, 18       /* y1 = e >> 18                                 ; S1B */
425         xor     y2, g           /* y2 = f^g                                     ; CH     */
426
427         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18)                       ; S1 */
428         rorx    y1, e, 14       /* y1 = (e >> 14)                                       ; S1 */
429         and     y2, e           /* y2 = (f^g)&e                                 ; CH     */
430
431         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18) ^ (e>>14)             ; S1 */
432         rorx    T1, a, 34       /* T1 = a >> 34                                 ; S0B */
433         xor     y2, g           /* y2 = CH = ((f^g)&e)^g                        ; CH     */
434         rorx    y1, a, 39       /* y1 = a >> 39                                 ; S0A */
435         mov     y3, a           /* y3 = a                                       ; MAJA   */
436
437         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34)                       ; S0 */
438         rorx    T1, a, 28       /* T1 = (a >> 28)                                       ; S0 */
439         add     h, [rsp + frame_XFER + 8*0]             /* h = k + w + h                                ; --     */
440         or      y3, c           /* y3 = a|c                                     ; MAJA   */
441
442         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34) ^ (a>>28)             ; S0 */
443         mov     T1, a           /* T1 = a                                       ; MAJB   */
444         and     y3, b           /* y3 = (a|c)&b                                 ; MAJA   */
445         and     T1, c           /* T1 = a&c                                     ; MAJB   */
446         add     y2, y0          /* y2 = S1 + CH                                 ; --     */
447
448
449         add     d, h            /* d = k + w + h + d                            ; --     */
450         or      y3, T1          /* y3 = MAJ = (a|c)&b)|(a&c)                    ; MAJ    */
451         add     h, y1           /* h = k + w + h + S0                           ; --     */
452
453         add     d, y2           /* d = k + w + h + d + S1 + CH = d + t1         ; --     */
454
455
456         /*add   h, y2           ; h = k + w + h + S0 + S1 + CH = t1 + S0       ; --      */
457
458         /*add   h, y3           ; h = t1 + S0 + MAJ                            ; --      */
459
460         RotateState
461
462 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 1 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
463
464         add     old_h, y2       /* h = k + w + h + S0 + S1 + CH = t1 + S0       ; --     */
465         mov     y2, f           /* y2 = f                                       ; CH     */
466         rorx    y0, e, 41       /* y0 = e >> 41                                 ; S1A */
467         rorx    y1, e, 18       /* y1 = e >> 18                                 ; S1B */
468         xor     y2, g           /* y2 = f^g                                     ; CH     */
469
470         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18)                       ; S1 */
471         rorx    y1, e, 14       /* y1 = (e >> 14)                                       ; S1 */
472         and     y2, e           /* y2 = (f^g)&e                                 ; CH     */
473         add     old_h, y3       /* h = t1 + S0 + MAJ                            ; --     */
474
475         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18) ^ (e>>14)             ; S1 */
476         rorx    T1, a, 34       /* T1 = a >> 34                                 ; S0B */
477         xor     y2, g           /* y2 = CH = ((f^g)&e)^g                        ; CH     */
478         rorx    y1, a, 39       /* y1 = a >> 39                                 ; S0A */
479         mov     y3, a           /* y3 = a                                       ; MAJA   */
480
481         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34)                       ; S0 */
482         rorx    T1, a, 28       /* T1 = (a >> 28)                                       ; S0 */
483         add     h, [rsp + frame_XFER + 8*1]             /* h = k + w + h                                ; --     */
484         or      y3, c           /* y3 = a|c                                     ; MAJA   */
485
486         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34) ^ (a>>28)             ; S0 */
487         mov     T1, a           /* T1 = a                                       ; MAJB   */
488         and     y3, b           /* y3 = (a|c)&b                                 ; MAJA   */
489         and     T1, c           /* T1 = a&c                                     ; MAJB   */
490         add     y2, y0          /* y2 = S1 + CH                                 ; --     */
491
492
493         add     d, h            /* d = k + w + h + d                            ; --     */
494         or      y3, T1          /* y3 = MAJ = (a|c)&b)|(a&c)                    ; MAJ    */
495         add     h, y1           /* h = k + w + h + S0                           ; --     */
496
497         add     d, y2           /* d = k + w + h + d + S1 + CH = d + t1         ; --     */
498
499
500         /*add   h, y2           ; h = k + w + h + S0 + S1 + CH = t1 + S0       ; --      */
501
502         /*add   h, y3           ; h = t1 + S0 + MAJ                            ; --      */
503
504         RotateState
505
506 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 2 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
507
508         add     old_h, y2               /* h = k + w + h + S0 + S1 + CH = t1 + S0       ; --     */
509         mov     y2, f           /* y2 = f                                       ; CH     */
510         rorx    y0, e, 41       /* y0 = e >> 41                                 ; S1A */
511         rorx    y1, e, 18       /* y1 = e >> 18                                 ; S1B */
512         xor     y2, g           /* y2 = f^g                                     ; CH     */
513
514         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18)                       ; S1 */
515         rorx    y1, e, 14       /* y1 = (e >> 14)                                       ; S1 */
516         and     y2, e           /* y2 = (f^g)&e                                 ; CH     */
517         add     old_h, y3       /* h = t1 + S0 + MAJ                            ; --     */
518
519         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18) ^ (e>>14)             ; S1 */
520         rorx    T1, a, 34       /* T1 = a >> 34                                 ; S0B */
521         xor     y2, g           /* y2 = CH = ((f^g)&e)^g                        ; CH     */
522         rorx    y1, a, 39       /* y1 = a >> 39                                 ; S0A */
523         mov     y3, a           /* y3 = a                                       ; MAJA   */
524
525         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34)                       ; S0 */
526         rorx    T1, a, 28       /* T1 = (a >> 28)                                       ; S0 */
527         add     h, [rsp + frame_XFER + 8*2]             /* h = k + w + h                                ; --     */
528         or      y3, c           /* y3 = a|c                                     ; MAJA   */
529
530         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34) ^ (a>>28)             ; S0 */
531         mov     T1, a           /* T1 = a                                       ; MAJB   */
532         and     y3, b           /* y3 = (a|c)&b                                 ; MAJA   */
533         and     T1, c           /* T1 = a&c                                     ; MAJB   */
534         add     y2, y0          /* y2 = S1 + CH                                 ; --     */
535
536
537         add     d, h            /* d = k + w + h + d                            ; --     */
538         or      y3, T1          /* y3 = MAJ = (a|c)&b)|(a&c)                    ; MAJ    */
539         add     h, y1           /* h = k + w + h + S0                           ; --     */
540
541         add     d, y2           /* d = k + w + h + d + S1 + CH = d + t1         ; --     */
542
543
544         /*add   h, y2           ; h = k + w + h + S0 + S1 + CH = t1 + S0       ; --      */
545
546         /*add   h, y3           ; h = t1 + S0 + MAJ                            ; --      */
547
548         RotateState
549
550 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; RND N + 3 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
551
552         add     old_h, y2               /* h = k + w + h + S0 + S1 + CH = t1 + S0       ; --     */
553         mov     y2, f           /* y2 = f                                       ; CH     */
554         rorx    y0, e, 41       /* y0 = e >> 41                                 ; S1A */
555         rorx    y1, e, 18       /* y1 = e >> 18                                 ; S1B */
556         xor     y2, g           /* y2 = f^g                                     ; CH     */
557
558         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18)                       ; S1 */
559         rorx    y1, e, 14       /* y1 = (e >> 14)                                       ; S1 */
560         and     y2, e           /* y2 = (f^g)&e                                 ; CH     */
561         add     old_h, y3       /* h = t1 + S0 + MAJ                            ; --     */
562
563         xor     y0, y1          /* y0 = (e>>41) ^ (e>>18) ^ (e>>14)             ; S1 */
564         rorx    T1, a, 34       /* T1 = a >> 34                                 ; S0B */
565         xor     y2, g           /* y2 = CH = ((f^g)&e)^g                        ; CH     */
566         rorx    y1, a, 39       /* y1 = a >> 39                                 ; S0A */
567         mov     y3, a           /* y3 = a                                       ; MAJA   */
568
569         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34)                       ; S0 */
570         rorx    T1, a, 28       /* T1 = (a >> 28)                                       ; S0 */
571         add     h, [rsp + frame_XFER + 8*3]             /* h = k + w + h                                ; --     */
572         or      y3, c           /* y3 = a|c                                     ; MAJA   */
573
574         xor     y1, T1          /* y1 = (a>>39) ^ (a>>34) ^ (a>>28)             ; S0 */
575         mov     T1, a           /* T1 = a                                       ; MAJB   */
576         and     y3, b           /* y3 = (a|c)&b                                 ; MAJA   */
577         and     T1, c           /* T1 = a&c                                     ; MAJB   */
578         add     y2, y0          /* y2 = S1 + CH                                 ; --     */
579
580
581         add     d, h            /* d = k + w + h + d                            ; --     */
582         or      y3, T1          /* y3 = MAJ = (a|c)&b)|(a&c)                    ; MAJ    */
583         add     h, y1           /* h = k + w + h + S0                           ; --     */
584
585         add     d, y2           /* d = k + w + h + d + S1 + CH = d + t1         ; --     */
586
587
588         add     h, y2           /* h = k + w + h + S0 + S1 + CH = t1 + S0       ; --     */
589
590         add     h, y3           /* h = t1 + S0 + MAJ                            ; --     */
591
592         RotateState
593
594 .endm
595
596 /*
597 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
598 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
599 ; void sha512_rorx(const void* M, void* D, uint64_t L);
600 ; Purpose: Updates the SHA512 digest stored at D with the message stored in M.
601 ; The size of the message pointed to by M must be an integer multiple of SHA512
602 ;   message blocks.
603 ; L is the message length in SHA512 blocks
604 */
605 .globl _gcry_sha512_transform_amd64_avx2
606 ELF(.type _gcry_sha512_transform_amd64_avx2,@function;)
607 .align 16
608 _gcry_sha512_transform_amd64_avx2:
609         xor eax, eax
610
611         cmp rdx, 0
612         je .Lnowork
613
614         vzeroupper
615
616         /* Allocate Stack Space */
617         mov     rax, rsp
618         sub     rsp, frame_size
619         and     rsp, ~(0x20 - 1)
620         mov     [rsp + frame_RSPSAVE], rax
621
622         /* Save GPRs */
623         mov     [rsp + frame_GPRSAVE + 8 * 0], rbp
624         mov     [rsp + frame_GPRSAVE + 8 * 1], rbx
625         mov     [rsp + frame_GPRSAVE + 8 * 2], r12
626         mov     [rsp + frame_GPRSAVE + 8 * 3], r13
627         mov     [rsp + frame_GPRSAVE + 8 * 4], r14
628         mov     [rsp + frame_GPRSAVE + 8 * 5], r15
629
630         vpblendd        xmm0, xmm0, xmm1, 0xf0
631         vpblendd        ymm0, ymm0, ymm1, 0xf0
632
633         shl     NUM_BLKS, 7     /* convert to bytes */
634         jz      .Ldone_hash
635         add     NUM_BLKS, INP   /* pointer to end of data */
636         mov     [rsp + frame_INPEND], NUM_BLKS
637
638         /*; load initial digest */
639         mov     a,[8*0 + CTX]
640         mov     b,[8*1 + CTX]
641         mov     c,[8*2 + CTX]
642         mov     d,[8*3 + CTX]
643         mov     e,[8*4 + CTX]
644         mov     f,[8*5 + CTX]
645         mov     g,[8*6 + CTX]
646         mov     h,[8*7 + CTX]
647
648         vmovdqa BYTE_FLIP_MASK, [.LPSHUFFLE_BYTE_FLIP_MASK ADD_RIP]
649
650 .Loop0:
651         lea     TBL,[.LK512 ADD_RIP]
652
653         /*; byte swap first 16 dwords */
654         COPY_YMM_AND_BSWAP      Y_0, [INP + 0*32], BYTE_FLIP_MASK
655         COPY_YMM_AND_BSWAP      Y_1, [INP + 1*32], BYTE_FLIP_MASK
656         COPY_YMM_AND_BSWAP      Y_2, [INP + 2*32], BYTE_FLIP_MASK
657         COPY_YMM_AND_BSWAP      Y_3, [INP + 3*32], BYTE_FLIP_MASK
658
659         mov     [rsp + frame_INP], INP
660
661         /*; schedule 64 input dwords, by doing 12 rounds of 4 each */
662         movq    [rsp + frame_SRND],4
663
664 .align 16
665 .Loop1:
666         vpaddq  XFER, Y_0, [TBL + 0*32]
667         vmovdqa [rsp + frame_XFER], XFER
668         FOUR_ROUNDS_AND_SCHED
669
670         vpaddq  XFER, Y_0, [TBL + 1*32]
671         vmovdqa [rsp + frame_XFER], XFER
672         FOUR_ROUNDS_AND_SCHED
673
674         vpaddq  XFER, Y_0, [TBL + 2*32]
675         vmovdqa [rsp + frame_XFER], XFER
676         FOUR_ROUNDS_AND_SCHED
677
678         vpaddq  XFER, Y_0, [TBL + 3*32]
679         vmovdqa [rsp + frame_XFER], XFER
680         add     TBL, 4*32
681         FOUR_ROUNDS_AND_SCHED
682
683         subq    [rsp + frame_SRND], 1
684         jne     .Loop1
685
686         movq    [rsp + frame_SRND], 2
687 .Loop2:
688         vpaddq  XFER, Y_0, [TBL + 0*32]
689         vmovdqa [rsp + frame_XFER], XFER
690         DO_4ROUNDS
691         vpaddq  XFER, Y_1, [TBL + 1*32]
692         vmovdqa [rsp + frame_XFER], XFER
693         add     TBL, 2*32
694         DO_4ROUNDS
695
696         vmovdqa Y_0, Y_2
697         vmovdqa Y_1, Y_3
698
699         subq    [rsp + frame_SRND], 1
700         jne     .Loop2
701
702         addm    [8*0 + CTX],a
703         addm    [8*1 + CTX],b
704         addm    [8*2 + CTX],c
705         addm    [8*3 + CTX],d
706         addm    [8*4 + CTX],e
707         addm    [8*5 + CTX],f
708         addm    [8*6 + CTX],g
709         addm    [8*7 + CTX],h
710
711         mov     INP, [rsp + frame_INP]
712         add     INP, 128
713         cmp     INP, [rsp + frame_INPEND]
714         jne     .Loop0
715
716 .Ldone_hash:
717
718         /* Restore GPRs */
719         mov     rbp, [rsp + frame_GPRSAVE + 8 * 0]
720         mov     rbx, [rsp + frame_GPRSAVE + 8 * 1]
721         mov     r12, [rsp + frame_GPRSAVE + 8 * 2]
722         mov     r13, [rsp + frame_GPRSAVE + 8 * 3]
723         mov     r14, [rsp + frame_GPRSAVE + 8 * 4]
724         mov     r15, [rsp + frame_GPRSAVE + 8 * 5]
725
726         /* Restore Stack Pointer */
727         mov     rsp, [rsp + frame_RSPSAVE]
728
729         vzeroall
730
731         mov     eax, frame_size + 31
732 .Lnowork:
733         ret
734
735 /*;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; */
736 /*;; Binary Data */
737
738 .align 64
739 /* K[t] used in SHA512 hashing */
740 .LK512:
741         .quad   0x428a2f98d728ae22,0x7137449123ef65cd
742         .quad   0xb5c0fbcfec4d3b2f,0xe9b5dba58189dbbc
743         .quad   0x3956c25bf348b538,0x59f111f1b605d019
744         .quad   0x923f82a4af194f9b,0xab1c5ed5da6d8118
745         .quad   0xd807aa98a3030242,0x12835b0145706fbe
746         .quad   0x243185be4ee4b28c,0x550c7dc3d5ffb4e2
747         .quad   0x72be5d74f27b896f,0x80deb1fe3b1696b1
748         .quad   0x9bdc06a725c71235,0xc19bf174cf692694
749         .quad   0xe49b69c19ef14ad2,0xefbe4786384f25e3
750         .quad   0x0fc19dc68b8cd5b5,0x240ca1cc77ac9c65
751         .quad   0x2de92c6f592b0275,0x4a7484aa6ea6e483
752         .quad   0x5cb0a9dcbd41fbd4,0x76f988da831153b5
753         .quad   0x983e5152ee66dfab,0xa831c66d2db43210
754         .quad   0xb00327c898fb213f,0xbf597fc7beef0ee4
755         .quad   0xc6e00bf33da88fc2,0xd5a79147930aa725
756         .quad   0x06ca6351e003826f,0x142929670a0e6e70
757         .quad   0x27b70a8546d22ffc,0x2e1b21385c26c926
758         .quad   0x4d2c6dfc5ac42aed,0x53380d139d95b3df
759         .quad   0x650a73548baf63de,0x766a0abb3c77b2a8
760         .quad   0x81c2c92e47edaee6,0x92722c851482353b
761         .quad   0xa2bfe8a14cf10364,0xa81a664bbc423001
762         .quad   0xc24b8b70d0f89791,0xc76c51a30654be30
763         .quad   0xd192e819d6ef5218,0xd69906245565a910
764         .quad   0xf40e35855771202a,0x106aa07032bbd1b8
765         .quad   0x19a4c116b8d2d0c8,0x1e376c085141ab53
766         .quad   0x2748774cdf8eeb99,0x34b0bcb5e19b48a8
767         .quad   0x391c0cb3c5c95a63,0x4ed8aa4ae3418acb
768         .quad   0x5b9cca4f7763e373,0x682e6ff3d6b2b8a3
769         .quad   0x748f82ee5defb2fc,0x78a5636f43172f60
770         .quad   0x84c87814a1f0ab72,0x8cc702081a6439ec
771         .quad   0x90befffa23631e28,0xa4506cebde82bde9
772         .quad   0xbef9a3f7b2c67915,0xc67178f2e372532b
773         .quad   0xca273eceea26619c,0xd186b8c721c0c207
774         .quad   0xeada7dd6cde0eb1e,0xf57d4f7fee6ed178
775         .quad   0x06f067aa72176fba,0x0a637dc5a2c898a6
776         .quad   0x113f9804bef90dae,0x1b710b35131c471b
777         .quad   0x28db77f523047d84,0x32caab7b40c72493
778         .quad   0x3c9ebe0a15c9bebc,0x431d67c49c100d4c
779         .quad   0x4cc5d4becb3e42b6,0x597f299cfc657e2a
780         .quad   0x5fcb6fab3ad6faec,0x6c44198c4a475817
781
782 .align 32
783
784 /* Mask for byte-swapping a couple of qwords in an XMM register using (v)pshufb. */
785 .LPSHUFFLE_BYTE_FLIP_MASK: .octa 0x08090a0b0c0d0e0f0001020304050607
786                            .octa 0x18191a1b1c1d1e1f1011121314151617
787
788 .LMASK_YMM_LO:             .octa 0x00000000000000000000000000000000
789                            .octa 0xFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
790
791 #endif
792 #endif