* import.c (import_one): Do collapse_uids() before we do any cleaning
[gnupg.git] / g10 / textfilter.c
1 /* textfilter.c
2  * Copyright (C) 1998, 1999, 2000, 2001, 2004 Free Software Foundation, Inc.
3  *
4  * This file is part of GnuPG.
5  *
6  * GnuPG is free software; you can redistribute it and/or modify
7  * it under the terms of the GNU General Public License as published by
8  * the Free Software Foundation; either version 2 of the License, or
9  * (at your option) any later version.
10  *
11  * GnuPG is distributed in the hope that it will be useful,
12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
14  * GNU General Public License for more details.
15  *
16  * You should have received a copy of the GNU General Public License
17  * along with this program; if not, write to the Free Software
18  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301,
19  * USA.
20  */
21
22 #include <config.h>
23 #include <stdio.h>
24 #include <stdlib.h>
25 #include <string.h>
26 #include <errno.h>
27 #include <assert.h>
28
29 #include "errors.h"
30 #include "iobuf.h"
31 #include "memory.h"
32 #include "util.h"
33 #include "filter.h"
34 #include "i18n.h"
35 #include "options.h"
36
37 #ifdef HAVE_DOSISH_SYSTEM
38 #define LF "\r\n"
39 #else
40 #define LF "\n"
41 #endif
42
43 #define MAX_LINELEN 19995 /* a little bit smaller than in armor.c */
44                           /* to make sure that a warning is displayed while */
45                           /* creating a message */
46
47 static unsigned
48 len_without_trailing_chars( byte *line, unsigned len, const char *trimchars )
49 {
50     byte *p, *mark;
51     unsigned n;
52
53     for(mark=NULL, p=line, n=0; n < len; n++, p++ ) {
54         if( strchr( trimchars, *p ) ) {
55             if( !mark )
56                 mark = p;
57         }
58         else
59             mark = NULL;
60     }
61
62     return mark? (mark - line) : len;
63 }
64
65
66 static int
67 standard( text_filter_context_t *tfx, IOBUF a,
68           byte *buf, size_t size, size_t *ret_len)
69 {
70     int rc=0;
71     size_t len = 0;
72     unsigned maxlen;
73
74     assert( size > 10 );
75     size -= 2;  /* reserve 2 bytes to append CR,LF */
76     while( !rc && len < size ) {
77         int lf_seen;
78
79         while( len < size && tfx->buffer_pos < tfx->buffer_len )
80             buf[len++] = tfx->buffer[tfx->buffer_pos++];
81         if( len >= size )
82             continue;
83
84         /* read the next line */
85         maxlen = MAX_LINELEN;
86         tfx->buffer_pos = 0;
87         tfx->buffer_len = iobuf_read_line( a, &tfx->buffer,
88                                            &tfx->buffer_size, &maxlen );
89         if( !maxlen )
90             tfx->truncated++;
91         if( !tfx->buffer_len ) {
92             if( !len )
93                 rc = -1; /* eof */
94             break;
95         }
96         lf_seen = tfx->buffer[tfx->buffer_len-1] == '\n';
97
98         /* The story behind this is that 2440 says that textmode
99            hashes should canonicalize line endings to CRLF and remove
100            spaces and tabs.  2440bis-12 says to just canonicalize to
101            CRLF.  1.4.0 was released using the bis-12 behavior, but it
102            was discovered that many mail clients do not canonicalize
103            PGP/MIME signature text appropriately (and were relying on
104            GnuPG to handle trailing spaces).  So, we default to the
105            2440 behavior, but use the 2440bis-12 behavior if the user
106            specifies --no-rfc2440-text.  The default will be changed
107            at some point in the future when the mail clients have been
108            upgraded.  Aside from PGP/MIME and broken mail clients,
109            this makes no difference to any signatures in the real
110            world except for a textmode detached signature.  PGP always
111            used the 2440bis-12 behavior (ignoring 2440 itself), so
112            this actually makes us compatible with PGP textmode
113            detached signatures for the first time. */
114         if(opt.rfc2440_text)
115           tfx->buffer_len=trim_trailing_chars(tfx->buffer,tfx->buffer_len,
116                                               " \t\r\n");
117         else
118           tfx->buffer_len=trim_trailing_chars(tfx->buffer,tfx->buffer_len,
119                                               "\r\n");
120
121         if( lf_seen ) {
122             tfx->buffer[tfx->buffer_len++] = '\r';
123             tfx->buffer[tfx->buffer_len++] = '\n';
124         }
125     }
126     *ret_len = len;
127     return rc;
128 }
129
130
131 /****************
132  * The filter is used to make canonical text: Lines are terminated by
133  * CR, LF, trailing white spaces are removed.
134  */
135 int
136 text_filter( void *opaque, int control,
137              IOBUF a, byte *buf, size_t *ret_len)
138 {
139     size_t size = *ret_len;
140     text_filter_context_t *tfx = opaque;
141     int rc=0;
142
143     if( control == IOBUFCTRL_UNDERFLOW ) {
144         rc = standard( tfx, a, buf, size, ret_len );
145     }
146     else if( control == IOBUFCTRL_FREE ) {
147         if( tfx->truncated )
148             log_error(_("can't handle text lines longer than %d characters\n"),
149                         MAX_LINELEN );
150         xfree( tfx->buffer );
151         tfx->buffer = NULL;
152     }
153     else if( control == IOBUFCTRL_DESC )
154         *(char**)buf = "text_filter";
155     return rc;
156 }
157
158
159 /****************
160  * Copy data from INP to OUT and do some escaping if requested.
161  * md is updated as required by rfc2440
162  */
163 int
164 copy_clearsig_text( IOBUF out, IOBUF inp, MD_HANDLE md,
165                     int escape_dash, int escape_from, int pgp2mode )
166 {
167     unsigned maxlen;
168     byte *buffer = NULL;    /* malloced buffer */
169     unsigned bufsize;       /* and size of this buffer */
170     unsigned n;
171     int truncated = 0;
172     int pending_lf = 0;
173
174     if( !opt.pgp2_workarounds )
175         pgp2mode = 0;
176
177     if( !escape_dash )
178         escape_from = 0;
179
180     for(;;) {
181         maxlen = MAX_LINELEN;
182         n = iobuf_read_line( inp, &buffer, &bufsize, &maxlen );
183         if( !maxlen )
184             truncated++;
185
186         if( !n )
187             break; /* read_line has returned eof */
188
189         /* update the message digest */
190         if( escape_dash ) {
191             if( pending_lf ) {
192                 md_putc( md, '\r' );
193                 md_putc( md, '\n' );
194             }
195             md_write( md, buffer,
196                      len_without_trailing_chars( buffer, n,
197                                                  pgp2mode? " \r\n":" \t\r\n"));
198         }
199         else
200             md_write( md, buffer, n );
201         pending_lf = buffer[n-1] == '\n';
202
203         /* write the output */
204         if(    ( escape_dash && *buffer == '-')
205             || ( escape_from && n > 4 && !memcmp(buffer, "From ", 5 ) ) ) {
206             iobuf_put( out, '-' );
207             iobuf_put( out, ' ' );
208         }
209
210 #if  0 /*defined(HAVE_DOSISH_SYSTEM)*/
211         /* We don't use this anymore because my interpretation of rfc2440 7.1
212          * is that there is no conversion needed.  If one decides to
213          * clearsign a unix file on a DOS box he will get a mixed line endings.
214          * If at some point it turns out, that a conversion is a nice feature
215          * we can make an option out of it.
216          */
217         /* make sure the lines do end in CR,LF */
218         if( n > 1 && ( (buffer[n-2] == '\r' && buffer[n-1] == '\n' )
219                             || (buffer[n-2] == '\n' && buffer[n-1] == '\r'))) {
220             iobuf_write( out, buffer, n-2 );
221             iobuf_put( out, '\r');
222             iobuf_put( out, '\n');
223         }
224         else if( n && buffer[n-1] == '\n' ) {
225             iobuf_write( out, buffer, n-1 );
226             iobuf_put( out, '\r');
227             iobuf_put( out, '\n');
228         }
229         else
230             iobuf_write( out, buffer, n );
231
232 #else
233         iobuf_write( out, buffer, n );
234 #endif
235     }
236
237     /* at eof */
238     if( !pending_lf ) { /* make sure that the file ends with a LF */
239         iobuf_writestr( out, LF );
240         if( !escape_dash )
241             md_putc( md, '\n' );
242     }
243
244     if( truncated )
245         log_info(_("input line longer than %d characters\n"), MAX_LINELEN );
246
247     return 0; /* okay */
248 }