hwf-x86: add detection for Intel CPUs with fast SHLD instruction
[libgcrypt.git] / cipher / sha1.c
1 /* sha1.c - SHA1 hash function
2  * Copyright (C) 1998, 2001, 2002, 2003, 2008 Free Software Foundation, Inc.
3  *
4  * This file is part of Libgcrypt.
5  *
6  * Libgcrypt is free software; you can redistribute it and/or modify
7  * it under the terms of the GNU Lesser General Public License as
8  * published by the Free Software Foundation; either version 2.1 of
9  * the License, or (at your option) any later version.
10  *
11  * Libgcrypt is distributed in the hope that it will be useful,
12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
14  * GNU Lesser General Public License for more details.
15  *
16  * You should have received a copy of the GNU Lesser General Public
17  * License along with this program; if not, see <http://www.gnu.org/licenses/>.
18  */
19
20
21 /*  Test vectors:
22  *
23  *  "abc"
24  *  A999 3E36 4706 816A BA3E  2571 7850 C26C 9CD0 D89D
25  *
26  *  "abcdbcdecdefdefgefghfghighijhijkijkljklmklmnlmnomnopnopq"
27  *  8498 3E44 1C3B D26E BAAE  4AA1 F951 29E5 E546 70F1
28  */
29
30
31 #include <config.h>
32 #include <stdio.h>
33 #include <stdlib.h>
34 #include <string.h>
35 #ifdef HAVE_STDINT_H
36 # include <stdint.h>
37 #endif
38
39 #include "g10lib.h"
40 #include "bithelp.h"
41 #include "bufhelp.h"
42 #include "cipher.h"
43 #include "hash-common.h"
44
45
46 /* USE_SSSE3 indicates whether to compile with Intel SSSE3 code. */
47 #undef USE_SSSE3
48 #if defined(__x86_64__) && defined(HAVE_GCC_INLINE_ASM_SSSE3) && \
49     (defined(HAVE_COMPATIBLE_GCC_AMD64_PLATFORM_AS) || \
50      defined(HAVE_COMPATIBLE_GCC_WIN64_PLATFORM_AS))
51 # define USE_SSSE3 1
52 #endif
53
54 /* USE_AVX indicates whether to compile with Intel AVX code. */
55 #undef USE_AVX
56 #if defined(__x86_64__) && defined(HAVE_GCC_INLINE_ASM_AVX) && \
57     (defined(HAVE_COMPATIBLE_GCC_AMD64_PLATFORM_AS) || \
58      defined(HAVE_COMPATIBLE_GCC_WIN64_PLATFORM_AS))
59 # define USE_AVX 1
60 #endif
61
62 /* USE_BMI2 indicates whether to compile with Intel AVX/BMI2 code. */
63 #undef USE_BMI2
64 #if defined(__x86_64__) && defined(HAVE_GCC_INLINE_ASM_AVX) && \
65     defined(HAVE_GCC_INLINE_ASM_BMI2) && \
66     (defined(HAVE_COMPATIBLE_GCC_AMD64_PLATFORM_AS) || \
67      defined(HAVE_COMPATIBLE_GCC_WIN64_PLATFORM_AS))
68 # define USE_BMI2 1
69 #endif
70
71 /* USE_NEON indicates whether to enable ARM NEON assembly code. */
72 #undef USE_NEON
73 #ifdef ENABLE_NEON_SUPPORT
74 # if defined(HAVE_ARM_ARCH_V6) && defined(__ARMEL__) \
75      && defined(HAVE_COMPATIBLE_GCC_ARM_PLATFORM_AS) \
76      && defined(HAVE_GCC_INLINE_ASM_NEON)
77 #  define USE_NEON 1
78 # endif
79 #endif /*ENABLE_NEON_SUPPORT*/
80
81
82 /* A macro to test whether P is properly aligned for an u32 type.
83    Note that config.h provides a suitable replacement for uintptr_t if
84    it does not exist in stdint.h.  */
85 /* #if __GNUC__ >= 2 */
86 /* # define U32_ALIGNED_P(p) (!(((uintptr_t)p) % __alignof__ (u32))) */
87 /* #else */
88 /* # define U32_ALIGNED_P(p) (!(((uintptr_t)p) % sizeof (u32))) */
89 /* #endif */
90
91 typedef struct
92 {
93   gcry_md_block_ctx_t bctx;
94   u32           h0,h1,h2,h3,h4;
95 #ifdef USE_SSSE3
96   unsigned int use_ssse3:1;
97 #endif
98 #ifdef USE_AVX
99   unsigned int use_avx:1;
100 #endif
101 #ifdef USE_BMI2
102   unsigned int use_bmi2:1;
103 #endif
104 #ifdef USE_NEON
105   unsigned int use_neon:1;
106 #endif
107 } SHA1_CONTEXT;
108
109 static unsigned int
110 transform (void *c, const unsigned char *data, size_t nblks);
111
112
113 static void
114 sha1_init (void *context, unsigned int flags)
115 {
116   SHA1_CONTEXT *hd = context;
117   unsigned int features = _gcry_get_hw_features ();
118
119   (void)flags;
120
121   hd->h0 = 0x67452301;
122   hd->h1 = 0xefcdab89;
123   hd->h2 = 0x98badcfe;
124   hd->h3 = 0x10325476;
125   hd->h4 = 0xc3d2e1f0;
126
127   hd->bctx.nblocks = 0;
128   hd->bctx.nblocks_high = 0;
129   hd->bctx.count = 0;
130   hd->bctx.blocksize = 64;
131   hd->bctx.bwrite = transform;
132
133 #ifdef USE_SSSE3
134   hd->use_ssse3 = (features & HWF_INTEL_SSSE3) != 0;
135 #endif
136 #ifdef USE_AVX
137   /* AVX implementation uses SHLD which is known to be slow on non-Intel CPUs.
138    * Therefore use this implementation on Intel CPUs only. */
139   hd->use_avx = (features & HWF_INTEL_AVX) && (features & HWF_INTEL_FAST_SHLD);
140 #endif
141 #ifdef USE_BMI2
142   hd->use_bmi2 = (features & HWF_INTEL_AVX) && (features & HWF_INTEL_BMI2);
143 #endif
144 #ifdef USE_NEON
145   hd->use_neon = (features & HWF_ARM_NEON) != 0;
146 #endif
147   (void)features;
148 }
149
150
151 /* Round function macros. */
152 #define K1  0x5A827999L
153 #define K2  0x6ED9EBA1L
154 #define K3  0x8F1BBCDCL
155 #define K4  0xCA62C1D6L
156 #define F1(x,y,z)   ( z ^ ( x & ( y ^ z ) ) )
157 #define F2(x,y,z)   ( x ^ y ^ z )
158 #define F3(x,y,z)   ( ( x & y ) | ( z & ( x | y ) ) )
159 #define F4(x,y,z)   ( x ^ y ^ z )
160 #define M(i) ( tm =    x[ i    &0x0f]  \
161                      ^ x[(i-14)&0x0f]  \
162                      ^ x[(i-8) &0x0f]  \
163                      ^ x[(i-3) &0x0f], \
164                      (x[i&0x0f] = rol(tm, 1)))
165 #define R(a,b,c,d,e,f,k,m)  do { e += rol( a, 5 )     \
166                                       + f( b, c, d )  \
167                                       + k             \
168                                       + m;            \
169                                  b = rol( b, 30 );    \
170                                } while(0)
171
172
173
174 #ifdef USE_NEON
175 unsigned int
176 _gcry_sha1_transform_armv7_neon (void *state, const unsigned char *data,
177                                  size_t nblks);
178 #endif
179
180 /*
181  * Transform NBLOCKS of each 64 bytes (16 32-bit words) at DATA.
182  */
183 static unsigned int
184 transform_blk (void *ctx, const unsigned char *data)
185 {
186   SHA1_CONTEXT *hd = ctx;
187   const u32 *idata = (const void *)data;
188   register u32 a, b, c, d, e; /* Local copies of the chaining variables.  */
189   register u32 tm;            /* Helper.  */
190   u32 x[16];                  /* The array we work on. */
191
192 #define I(i) (x[i] = buf_get_be32(idata + i))
193
194       /* Get the values of the chaining variables. */
195       a = hd->h0;
196       b = hd->h1;
197       c = hd->h2;
198       d = hd->h3;
199       e = hd->h4;
200
201       /* Transform. */
202       R( a, b, c, d, e, F1, K1, I( 0) );
203       R( e, a, b, c, d, F1, K1, I( 1) );
204       R( d, e, a, b, c, F1, K1, I( 2) );
205       R( c, d, e, a, b, F1, K1, I( 3) );
206       R( b, c, d, e, a, F1, K1, I( 4) );
207       R( a, b, c, d, e, F1, K1, I( 5) );
208       R( e, a, b, c, d, F1, K1, I( 6) );
209       R( d, e, a, b, c, F1, K1, I( 7) );
210       R( c, d, e, a, b, F1, K1, I( 8) );
211       R( b, c, d, e, a, F1, K1, I( 9) );
212       R( a, b, c, d, e, F1, K1, I(10) );
213       R( e, a, b, c, d, F1, K1, I(11) );
214       R( d, e, a, b, c, F1, K1, I(12) );
215       R( c, d, e, a, b, F1, K1, I(13) );
216       R( b, c, d, e, a, F1, K1, I(14) );
217       R( a, b, c, d, e, F1, K1, I(15) );
218       R( e, a, b, c, d, F1, K1, M(16) );
219       R( d, e, a, b, c, F1, K1, M(17) );
220       R( c, d, e, a, b, F1, K1, M(18) );
221       R( b, c, d, e, a, F1, K1, M(19) );
222       R( a, b, c, d, e, F2, K2, M(20) );
223       R( e, a, b, c, d, F2, K2, M(21) );
224       R( d, e, a, b, c, F2, K2, M(22) );
225       R( c, d, e, a, b, F2, K2, M(23) );
226       R( b, c, d, e, a, F2, K2, M(24) );
227       R( a, b, c, d, e, F2, K2, M(25) );
228       R( e, a, b, c, d, F2, K2, M(26) );
229       R( d, e, a, b, c, F2, K2, M(27) );
230       R( c, d, e, a, b, F2, K2, M(28) );
231       R( b, c, d, e, a, F2, K2, M(29) );
232       R( a, b, c, d, e, F2, K2, M(30) );
233       R( e, a, b, c, d, F2, K2, M(31) );
234       R( d, e, a, b, c, F2, K2, M(32) );
235       R( c, d, e, a, b, F2, K2, M(33) );
236       R( b, c, d, e, a, F2, K2, M(34) );
237       R( a, b, c, d, e, F2, K2, M(35) );
238       R( e, a, b, c, d, F2, K2, M(36) );
239       R( d, e, a, b, c, F2, K2, M(37) );
240       R( c, d, e, a, b, F2, K2, M(38) );
241       R( b, c, d, e, a, F2, K2, M(39) );
242       R( a, b, c, d, e, F3, K3, M(40) );
243       R( e, a, b, c, d, F3, K3, M(41) );
244       R( d, e, a, b, c, F3, K3, M(42) );
245       R( c, d, e, a, b, F3, K3, M(43) );
246       R( b, c, d, e, a, F3, K3, M(44) );
247       R( a, b, c, d, e, F3, K3, M(45) );
248       R( e, a, b, c, d, F3, K3, M(46) );
249       R( d, e, a, b, c, F3, K3, M(47) );
250       R( c, d, e, a, b, F3, K3, M(48) );
251       R( b, c, d, e, a, F3, K3, M(49) );
252       R( a, b, c, d, e, F3, K3, M(50) );
253       R( e, a, b, c, d, F3, K3, M(51) );
254       R( d, e, a, b, c, F3, K3, M(52) );
255       R( c, d, e, a, b, F3, K3, M(53) );
256       R( b, c, d, e, a, F3, K3, M(54) );
257       R( a, b, c, d, e, F3, K3, M(55) );
258       R( e, a, b, c, d, F3, K3, M(56) );
259       R( d, e, a, b, c, F3, K3, M(57) );
260       R( c, d, e, a, b, F3, K3, M(58) );
261       R( b, c, d, e, a, F3, K3, M(59) );
262       R( a, b, c, d, e, F4, K4, M(60) );
263       R( e, a, b, c, d, F4, K4, M(61) );
264       R( d, e, a, b, c, F4, K4, M(62) );
265       R( c, d, e, a, b, F4, K4, M(63) );
266       R( b, c, d, e, a, F4, K4, M(64) );
267       R( a, b, c, d, e, F4, K4, M(65) );
268       R( e, a, b, c, d, F4, K4, M(66) );
269       R( d, e, a, b, c, F4, K4, M(67) );
270       R( c, d, e, a, b, F4, K4, M(68) );
271       R( b, c, d, e, a, F4, K4, M(69) );
272       R( a, b, c, d, e, F4, K4, M(70) );
273       R( e, a, b, c, d, F4, K4, M(71) );
274       R( d, e, a, b, c, F4, K4, M(72) );
275       R( c, d, e, a, b, F4, K4, M(73) );
276       R( b, c, d, e, a, F4, K4, M(74) );
277       R( a, b, c, d, e, F4, K4, M(75) );
278       R( e, a, b, c, d, F4, K4, M(76) );
279       R( d, e, a, b, c, F4, K4, M(77) );
280       R( c, d, e, a, b, F4, K4, M(78) );
281       R( b, c, d, e, a, F4, K4, M(79) );
282
283       /* Update the chaining variables. */
284       hd->h0 += a;
285       hd->h1 += b;
286       hd->h2 += c;
287       hd->h3 += d;
288       hd->h4 += e;
289
290   return /* burn_stack */ 88+4*sizeof(void*);
291 }
292
293
294 /* Assembly implementations use SystemV ABI, ABI conversion and additional
295  * stack to store XMM6-XMM15 needed on Win64. */
296 #undef ASM_FUNC_ABI
297 #undef ASM_EXTRA_STACK
298 #if defined(USE_SSSE3) || defined(USE_AVX) || defined(USE_BMI2)
299 # ifdef HAVE_COMPATIBLE_GCC_WIN64_PLATFORM_AS
300 #  define ASM_FUNC_ABI __attribute__((sysv_abi))
301 #  define ASM_EXTRA_STACK (10 * 16)
302 # else
303 #  define ASM_FUNC_ABI
304 #  define ASM_EXTRA_STACK 0
305 # endif
306 #endif
307
308
309 #ifdef USE_SSSE3
310 unsigned int
311 _gcry_sha1_transform_amd64_ssse3 (void *state, const unsigned char *data,
312                                   size_t nblks) ASM_FUNC_ABI;
313 #endif
314
315 #ifdef USE_AVX
316 unsigned int
317 _gcry_sha1_transform_amd64_avx (void *state, const unsigned char *data,
318                                  size_t nblks) ASM_FUNC_ABI;
319 #endif
320
321 #ifdef USE_BMI2
322 unsigned int
323 _gcry_sha1_transform_amd64_avx_bmi2 (void *state, const unsigned char *data,
324                                      size_t nblks) ASM_FUNC_ABI;
325 #endif
326
327
328 static unsigned int
329 transform (void *ctx, const unsigned char *data, size_t nblks)
330 {
331   SHA1_CONTEXT *hd = ctx;
332   unsigned int burn;
333
334 #ifdef USE_BMI2
335   if (hd->use_bmi2)
336     return _gcry_sha1_transform_amd64_avx_bmi2 (&hd->h0, data, nblks)
337            + 4 * sizeof(void*) + ASM_EXTRA_STACK;
338 #endif
339 #ifdef USE_AVX
340   if (hd->use_avx)
341     return _gcry_sha1_transform_amd64_avx (&hd->h0, data, nblks)
342            + 4 * sizeof(void*) + ASM_EXTRA_STACK;
343 #endif
344 #ifdef USE_SSSE3
345   if (hd->use_ssse3)
346     return _gcry_sha1_transform_amd64_ssse3 (&hd->h0, data, nblks)
347            + 4 * sizeof(void*) + ASM_EXTRA_STACK;
348 #endif
349 #ifdef USE_NEON
350   if (hd->use_neon)
351     return _gcry_sha1_transform_armv7_neon (&hd->h0, data, nblks)
352            + 4 * sizeof(void*);
353 #endif
354
355   do
356     {
357       burn = transform_blk (hd, data);
358       data += 64;
359     }
360   while (--nblks);
361
362 #ifdef ASM_EXTRA_STACK
363   /* 'transform_blk' is typically inlined and XMM6-XMM15 are stored at
364    *  the prologue of this function. Therefore need to add ASM_EXTRA_STACK to
365    *  here too.
366    */
367   burn += ASM_EXTRA_STACK;
368 #endif
369
370   return burn;
371 }
372
373
374 /* The routine final terminates the computation and
375  * returns the digest.
376  * The handle is prepared for a new cycle, but adding bytes to the
377  * handle will the destroy the returned buffer.
378  * Returns: 20 bytes representing the digest.
379  */
380
381 static void
382 sha1_final(void *context)
383 {
384   SHA1_CONTEXT *hd = context;
385   u32 t, th, msb, lsb;
386   unsigned char *p;
387   unsigned int burn;
388
389   _gcry_md_block_write (hd, NULL, 0); /* flush */;
390
391   t = hd->bctx.nblocks;
392   if (sizeof t == sizeof hd->bctx.nblocks)
393     th = hd->bctx.nblocks_high;
394   else
395     th = hd->bctx.nblocks >> 32;
396
397   /* multiply by 64 to make a byte count */
398   lsb = t << 6;
399   msb = (th << 6) | (t >> 26);
400   /* add the count */
401   t = lsb;
402   if( (lsb += hd->bctx.count) < t )
403     msb++;
404   /* multiply by 8 to make a bit count */
405   t = lsb;
406   lsb <<= 3;
407   msb <<= 3;
408   msb |= t >> 29;
409
410   if( hd->bctx.count < 56 )  /* enough room */
411     {
412       hd->bctx.buf[hd->bctx.count++] = 0x80; /* pad */
413       while( hd->bctx.count < 56 )
414         hd->bctx.buf[hd->bctx.count++] = 0;  /* pad */
415     }
416   else  /* need one extra block */
417     {
418       hd->bctx.buf[hd->bctx.count++] = 0x80; /* pad character */
419       while( hd->bctx.count < 64 )
420         hd->bctx.buf[hd->bctx.count++] = 0;
421       _gcry_md_block_write(hd, NULL, 0);  /* flush */;
422       memset(hd->bctx.buf, 0, 56 ); /* fill next block with zeroes */
423     }
424   /* append the 64 bit count */
425   buf_put_be32(hd->bctx.buf + 56, msb);
426   buf_put_be32(hd->bctx.buf + 60, lsb);
427   burn = transform( hd, hd->bctx.buf, 1 );
428   _gcry_burn_stack (burn);
429
430   p = hd->bctx.buf;
431 #define X(a) do { buf_put_be32(p, hd->h##a); p += 4; } while(0)
432   X(0);
433   X(1);
434   X(2);
435   X(3);
436   X(4);
437 #undef X
438
439 }
440
441 static unsigned char *
442 sha1_read( void *context )
443 {
444   SHA1_CONTEXT *hd = context;
445
446   return hd->bctx.buf;
447 }
448
449 /****************
450  * Shortcut functions which puts the hash value of the supplied buffer
451  * into outbuf which must have a size of 20 bytes.
452  */
453 void
454 _gcry_sha1_hash_buffer (void *outbuf, const void *buffer, size_t length)
455 {
456   SHA1_CONTEXT hd;
457
458   sha1_init (&hd, 0);
459   _gcry_md_block_write (&hd, buffer, length);
460   sha1_final (&hd);
461   memcpy (outbuf, hd.bctx.buf, 20);
462 }
463
464
465 /* Variant of the above shortcut function using a multiple buffers.  */
466 void
467 _gcry_sha1_hash_buffers (void *outbuf, const gcry_buffer_t *iov, int iovcnt)
468 {
469   SHA1_CONTEXT hd;
470
471   sha1_init (&hd, 0);
472   for (;iovcnt > 0; iov++, iovcnt--)
473     _gcry_md_block_write (&hd,
474                           (const char*)iov[0].data + iov[0].off, iov[0].len);
475   sha1_final (&hd);
476   memcpy (outbuf, hd.bctx.buf, 20);
477 }
478
479
480 \f
481 /*
482      Self-test section.
483  */
484
485
486 static gpg_err_code_t
487 selftests_sha1 (int extended, selftest_report_func_t report)
488 {
489   const char *what;
490   const char *errtxt;
491
492   what = "short string";
493   errtxt = _gcry_hash_selftest_check_one
494     (GCRY_MD_SHA1, 0,
495      "abc", 3,
496      "\xA9\x99\x3E\x36\x47\x06\x81\x6A\xBA\x3E"
497      "\x25\x71\x78\x50\xC2\x6C\x9C\xD0\xD8\x9D", 20);
498   if (errtxt)
499     goto failed;
500
501   if (extended)
502     {
503       what = "long string";
504       errtxt = _gcry_hash_selftest_check_one
505         (GCRY_MD_SHA1, 0,
506          "abcdbcdecdefdefgefghfghighijhijkijkljklmklmnlmnomnopnopq", 56,
507          "\x84\x98\x3E\x44\x1C\x3B\xD2\x6E\xBA\xAE"
508          "\x4A\xA1\xF9\x51\x29\xE5\xE5\x46\x70\xF1", 20);
509       if (errtxt)
510         goto failed;
511
512       what = "one million \"a\"";
513       errtxt = _gcry_hash_selftest_check_one
514         (GCRY_MD_SHA1, 1,
515          NULL, 0,
516          "\x34\xAA\x97\x3C\xD4\xC4\xDA\xA4\xF6\x1E"
517          "\xEB\x2B\xDB\xAD\x27\x31\x65\x34\x01\x6F", 20);
518       if (errtxt)
519         goto failed;
520     }
521
522   return 0; /* Succeeded. */
523
524  failed:
525   if (report)
526     report ("digest", GCRY_MD_SHA1, what, errtxt);
527   return GPG_ERR_SELFTEST_FAILED;
528 }
529
530
531 /* Run a full self-test for ALGO and return 0 on success.  */
532 static gpg_err_code_t
533 run_selftests (int algo, int extended, selftest_report_func_t report)
534 {
535   gpg_err_code_t ec;
536
537   switch (algo)
538     {
539     case GCRY_MD_SHA1:
540       ec = selftests_sha1 (extended, report);
541       break;
542     default:
543       ec = GPG_ERR_DIGEST_ALGO;
544       break;
545
546     }
547   return ec;
548 }
549
550
551
552 \f
553 static unsigned char asn[15] = /* Object ID is 1.3.14.3.2.26 */
554   { 0x30, 0x21, 0x30, 0x09, 0x06, 0x05, 0x2b, 0x0e, 0x03,
555     0x02, 0x1a, 0x05, 0x00, 0x04, 0x14 };
556
557 static gcry_md_oid_spec_t oid_spec_sha1[] =
558   {
559     /* iso.member-body.us.rsadsi.pkcs.pkcs-1.5 (sha1WithRSAEncryption) */
560     { "1.2.840.113549.1.1.5" },
561     /* iso.member-body.us.x9-57.x9cm.3 (dsaWithSha1)*/
562     { "1.2.840.10040.4.3" },
563     /* from NIST's OIW  (sha1) */
564     { "1.3.14.3.2.26" },
565     /* from NIST OIW (sha-1WithRSAEncryption) */
566     { "1.3.14.3.2.29" },
567     /* iso.member-body.us.ansi-x9-62.signatures.ecdsa-with-sha1 */
568     { "1.2.840.10045.4.1" },
569     { NULL },
570   };
571
572 gcry_md_spec_t _gcry_digest_spec_sha1 =
573   {
574     GCRY_MD_SHA1, {0, 1},
575     "SHA1", asn, DIM (asn), oid_spec_sha1, 20,
576     sha1_init, _gcry_md_block_write, sha1_final, sha1_read,
577     sizeof (SHA1_CONTEXT),
578     run_selftests
579   };