chacha20-amd64-avx2: optimize output xoring