Форум программистов, компьютерный форум CyberForum.ru
Наши страницы

C++

Войти
Регистрация
Восстановить пароль
 
jenokizm
18 / 34 / 10
Регистрация: 27.03.2014
Сообщений: 702
#1

SSE2 результат не сходиться - C++

11.07.2017, 19:19. Просмотров 249. Ответов 1
Метки нет (Все метки)

Привет, есть простая реализация алгоритма хеширования паролей MD5. После переноса на SSE2 во втором блоке первого раунда расчеты не верные получаются (результат не сходиться с обычной эталонной реализацией), место где расхождения пометил на скриншоте
Не могу понять в чем дело( Может вы поможите догадаться почему так?))
Вот исходники
Md5CpuSimple.cpp
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
// Md5CpuSimple.cpp: определяет точку входа для консольного приложения.
//
#include "stdafx.h"
#include <math.h>
#include <iostream>
#include <string>
//#include "md5.h"
typedef unsigned int uint;
 
uint F(uint X, uint Y, uint Z) { return ((X & Y) | ((~X) & Z)); }
uint G(uint X, uint Y, uint Z) { return (X & Z) | (Y & (~Z)); }
uint H(uint X, uint Y, uint Z) { return X ^ Y ^ Z; }
uint I(uint X, uint Y, uint Z) { return Y ^ (X | (~Z)); }
uint rotate_left(uint value, int shift) { return value << shift | value >> (32 - shift); }
 
 
 
 
 
 
std::string to_hex(uint value)
{
    std::string out;
    unsigned char hex;
    char hex_res[3];
    while (value)
    {
        hex = value % 256;
        _itoa_s(hex, hex_res, 16);
        if (hex_res[1] == '\0')
        {
            hex_res[1] = hex_res[0];
            hex_res[0] = '0';
            hex_res[2] = '\0';
        }
        out.append(hex_res);
        value /= 256;
    }
    return out;
}
 
 
 
std::string get_md5(std::string in)
{
    int length = in.length();
    int rest = length % 64;
    int size = 0;
 
    if (rest < 56)
        size = length - rest + 56 + 8;
    else
        size = length + 64 - rest + 56 + 8;
 
    unsigned char *msg_for_decode = new unsigned char[size];
 
    for (int i = 0; i < length; i++)
        msg_for_decode[i] = in[i];
    msg_for_decode[length] = 0x80;
    for (int i = length + 1; i < size; i++)
        msg_for_decode[i] = 0;
 
    __int64 bit_length = (uint)(length) * 8;
 
    for (int i = 0; i < 8; i++)
        msg_for_decode[size - 8 + i] = (unsigned char)(bit_length >> i * 8);
 
    uint A = 0x67452301, B = 0xefcdab89, C = 0x98badcfe, D = 0x10325476;
    uint T[64];
 
    for (int i = 0; i<64; i++)
        T[i] = uint(pow(2, 32)*fabs(sin(i + 1)));
 
    uint *X = (uint*)(msg_for_decode);
 
    uint AA = 0, BB = 0, CC = 0, DD = 0;
 
    for (int i = 0; i < size / 4; i += 16) {
        AA = A; BB = B; CC = C; DD = D;
 
        //раунд 1
        auto T0 = T[0];
 
        auto Fres = F(B, C, D);
        auto A1 = (A + Fres + X[i + 0] + T0);
        auto A2 = rotate_left(A1, 7);
        auto A3 = B + A2; // =A те результат
 
 
 
        A = B + rotate_left((A + F(B, C, D) + X[i + 0] + T[0]), 7);
        D = A + rotate_left((D + F(A, B, C) + X[i + 1] + T[1]), 12);
        C = D + rotate_left((C + F(D, A, B) + X[i + 2] + T[2]), 17);
        B = C + rotate_left((B + F(C, D, A) + X[i + 3] + T[3]), 22);
 
        A = B + rotate_left((A + F(B, C, D) + X[i + 4] + T[4]), 7);
        D = A + rotate_left((D + F(A, B, C) + X[i + 5] + T[5]), 12);
        C = D + rotate_left((C + F(D, A, B) + X[i + 6] + T[6]), 17);
        B = C + rotate_left((B + F(C, D, A) + X[i + 7] + T[7]), 22);
 
        A = B + rotate_left((A + F(B, C, D) + X[i + 8] + T[8]), 7);
        D = A + rotate_left((D + F(A, B, C) + X[i + 9] + T[9]), 12);
        C = D + rotate_left((C + F(D, A, B) + X[i + 10] + T[10]), 17);
        B = C + rotate_left((B + F(C, D, A) + X[i + 11] + T[11]), 22);
 
        A = B + rotate_left((A + F(B, C, D) + X[i + 12] + T[12]), 7);
        D = A + rotate_left((D + F(A, B, C) + X[i + 13] + T[13]), 12);
        C = D + rotate_left((C + F(D, A, B) + X[i + 14] + T[14]), 17);
        B = C + rotate_left((B + F(C, D, A) + X[i + 15] + T[15]), 22);
 
        //раунд 2
        A = B + rotate_left((A + G(B, C, D) + X[i + 1] + T[16]), 5);
        D = A + rotate_left((D + G(A, B, C) + X[i + 6] + T[17]), 9);
        C = D + rotate_left((C + G(D, A, B) + X[i + 11] + T[18]), 14);
        B = C + rotate_left((B + G(C, D, A) + X[i + 0] + T[19]), 20);
 
        A = B + rotate_left((A + G(B, C, D) + X[i + 5] + T[20]), 5);
        D = A + rotate_left((D + G(A, B, C) + X[i + 10] + T[21]), 9);
        C = D + rotate_left((C + G(D, A, B) + X[i + 15] + T[22]), 14);
        B = C + rotate_left((B + G(C, D, A) + X[i + 4] + T[23]), 20);
 
        A = B + rotate_left((A + G(B, C, D) + X[i + 9] + T[24]), 5);
        D = A + rotate_left((D + G(A, B, C) + X[i + 14] + T[25]), 9);
        C = D + rotate_left((C + G(D, A, B) + X[i + 3] + T[26]), 14);
        B = C + rotate_left((B + G(C, D, A) + X[i + 8] + T[27]), 20);
 
        A = B + rotate_left((A + G(B, C, D) + X[i + 13] + T[28]), 5);
        D = A + rotate_left((D + G(A, B, C) + X[i + 2] + T[29]), 9);
        C = D + rotate_left((C + G(D, A, B) + X[i + 7] + T[30]), 14);
        B = C + rotate_left((B + G(C, D, A) + X[i + 12] + T[31]), 20);
 
        //раунд 3
        A = B + rotate_left((A + H(B, C, D) + X[i + 5] + T[32]), 4);
        D = A + rotate_left((D + H(A, B, C) + X[i + 8] + T[33]), 11);
        C = D + rotate_left((C + H(D, A, B) + X[i + 11] + T[34]), 16);
        B = C + rotate_left((B + H(C, D, A) + X[i + 14] + T[35]), 23);
 
        A = B + rotate_left((A + H(B, C, D) + X[i + 1] + T[36]), 4);
        D = A + rotate_left((D + H(A, B, C) + X[i + 4] + T[37]), 11);
        C = D + rotate_left((C + H(D, A, B) + X[i + 7] + T[38]), 16);
        B = C + rotate_left((B + H(C, D, A) + X[i + 10] + T[39]), 23);
 
        A = B + rotate_left((A + H(B, C, D) + X[i + 13] + T[40]), 4);
        D = A + rotate_left((D + H(A, B, C) + X[i + 0] + T[41]), 11);
        C = D + rotate_left((C + H(D, A, B) + X[i + 3] + T[42]), 16);
        B = C + rotate_left((B + H(C, D, A) + X[i + 6] + T[43]), 23);
 
        A = B + rotate_left((A + H(B, C, D) + X[i + 9] + T[44]), 4);
        D = A + rotate_left((D + H(A, B, C) + X[i + 12] + T[45]), 11);
        C = D + rotate_left((C + H(D, A, B) + X[i + 15] + T[46]), 16);
        B = C + rotate_left((B + H(C, D, A) + X[i + 2] + T[47]), 23);
 
        //раунд 4
        A = B + rotate_left((A + I(B, C, D) + X[i + 0] + T[48]), 6);
        D = A + rotate_left((D + I(A, B, C) + X[i + 7] + T[49]), 10);
        C = D + rotate_left((C + I(D, A, B) + X[i + 14] + T[50]), 15);
        B = C + rotate_left((B + I(C, D, A) + X[i + 5] + T[51]), 21);
 
        A = B + rotate_left((A + I(B, C, D) + X[i + 12] + T[52]), 6);
        D = A + rotate_left((D + I(A, B, C) + X[i + 3] + T[53]), 10);
        C = D + rotate_left((C + I(D, A, B) + X[i + 10] + T[54]), 15);
        B = C + rotate_left((B + I(C, D, A) + X[i + 1] + T[55]), 21);
 
        A = B + rotate_left((A + I(B, C, D) + X[i + 8] + T[56]), 6);
        D = A + rotate_left((D + I(A, B, C) + X[i + 15] + T[57]), 10);
        C = D + rotate_left((C + I(D, A, B) + X[i + 6] + T[58]), 15);
        B = C + rotate_left((B + I(C, D, A) + X[i + 13] + T[59]), 21);
 
        A = B + rotate_left((A + I(B, C, D) + X[i + 4] + T[60]), 6);
        D = A + rotate_left((D + I(A, B, C) + X[i + 11] + T[61]), 10);
        C = D + rotate_left((C + I(D, A, B) + X[i + 2] + T[62]), 15);
        B = C + rotate_left((B + I(C, D, A) + X[i + 9] + T[63]), 21);
 
        A += AA;
        B += BB;
        C += CC;
        D += DD;
    }
 
    delete[]msg_for_decode;
    std::string res = to_hex(A) + to_hex(B) + to_hex(C) + to_hex(D);
    return res;
}
 
 
 
 
 
int main()
{
    std::string md5result = get_md5("911");
 
    if (md5result == "b56a18e0eacdf51aa2a5306b0f533204")
    {
        bool good = true;
    }
    else
    {
        bool good = false;
    }
 
 
    return 0;
}

Md5CpuSSE2.cpp
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
// Md5CpuSSE2.cpp: определяет точку входа для консольного приложения.
//
 
#include "stdafx.h"
#include <math.h>
#include <iostream>
#include <string>
typedef unsigned int uint;
 
 
 
__m128i F(__m128i x, __m128i y, __m128i z) { return (_mm_or_si128(_mm_and_si128(x, y), _mm_andnot_si128(x, z))); }
__m128i G(__m128i x, __m128i y, __m128i z) { return (_mm_or_si128(_mm_and_si128(x, z), _mm_andnot_si128(z, y))); }
__m128i H(__m128i x, __m128i y, __m128i z) { return (_mm_xor_si128(_mm_xor_si128(x, y), z)); }
__m128i I(__m128i x, __m128i y, __m128i z) { return (_mm_xor_si128(y, _mm_or_si128(x, _mm_andnot_si128(z, _mm_set1_epi32(0))))); } //посл сомнительно с нулем
__m128i rotate_left(__m128i x, int n)
{
    __m128i tmp; 
    tmp = _mm_srli_epi32(x, 32 - n);
    x = _mm_slli_epi32(x, n);
    x = _mm_or_si128(x, tmp);
    return x;
}
 
 
 
 
__m128i operator | (__m128i  x, __m128i  y)
{
    //return x + y;
    return _mm_add_epi32(x, y);
 
}
 
 
std::string to_hex(__m128i value)
{
    std::string out;
    unsigned char hex;
    char hex_res[3];
    const int tmp = 0;
    auto val = _mm_extract_epi32(value, tmp);
    while (val)
    {
        hex = val % 256;
        _itoa_s(hex, hex_res, 16);
        if (hex_res[1] == '\0')
        {
            hex_res[1] = hex_res[0];
            hex_res[0] = '0';
            hex_res[2] = '\0';
        }
        out.append(hex_res);
        val /= 256;
    }
    return out;
}
 
 
std::string get_md5(std::string in)
{
    int length = in.length();
    int rest = length % 64;
    int size = 0;
 
    if (rest < 56)
        size = length - rest + 56 + 8;
    else
        size = length + 64 - rest + 56 + 8;
 
    unsigned char *msg_for_decode = new unsigned char[size];
 
    for (int i = 0; i < length; i++)
        msg_for_decode[i] = in[i];
    msg_for_decode[length] = 0x80;
    for (int i = length + 1; i < size; i++)
        msg_for_decode[i] = 0;
 
    __int64 bit_length = (uint)(length) * 8;
 
    for (int i = 0; i < 8; i++)
        msg_for_decode[size - 8 + i] = (unsigned char)(bit_length >> i * 8);
 
    __m128i A = _mm_set1_epi32(0x67452301), B = _mm_set1_epi32(0xefcdab89), C = _mm_set1_epi32(0x98badcfe), D = _mm_set1_epi32(0x10325476);
    __m128i T[64];
 
    for (int i = 0; i < 64; i++)
    {
        auto t = uint(pow(2, 32)*fabs(sin(i + 1)));
        T[i] = _mm_set1_epi32(t); //тут хз мб не все
    }
 
    __m128i *X = (__m128i*)(msg_for_decode);
 
    __m128i AA = _mm_set1_epi32(0), BB = _mm_set1_epi32(0), CC = _mm_set1_epi32(0), DD = _mm_set1_epi32(0);
 
    for (int i = 0; i < size / 4; i += 16) {
        AA = A; BB = B; CC = C; DD = D;
        //раунд 1
        A = B | rotate_left((A | F(B, C, D) | X[i + 0] | T[0]), 7);
        D = A | rotate_left((D | F(A, B, C) | X[i + 1] | T[1]), 12);
        C = D | rotate_left((C | F(D, A, B) | X[i + 2] | T[2]), 17);
        B = C | rotate_left((B | F(C, D, A) | X[i + 3] | T[3]), 22);
 
        A = B | rotate_left((A | F(B, C, D) | X[i + 4] | T[4]), 7);
        D = A | rotate_left((D | F(A, B, C) | X[i + 5] | T[5]), 12);
        C = D | rotate_left((C | F(D, A, B) | X[i + 6] | T[6]), 17);
        B = C | rotate_left((B | F(C, D, A) | X[i + 7] | T[7]), 22);
 
        A = B | rotate_left((A | F(B, C, D) | X[i + 8] | T[8]), 7);
        D = A | rotate_left((D | F(A, B, C) | X[i + 9] | T[9]), 12);
        C = D | rotate_left((C | F(D, A, B) | X[i + 10] | T[10]), 17);
        B = C | rotate_left((B | F(C, D, A) | X[i + 11] | T[11]), 22);
 
        A = B | rotate_left((A | F(B, C, D) | X[i + 12] | T[12]), 7);
        D = A | rotate_left((D | F(A, B, C) | X[i + 13] | T[13]), 12);
        C = D | rotate_left((C | F(D, A, B) | X[i + 14] | T[14]), 17);
        B = C | rotate_left((B | F(C, D, A) | X[i + 15] | T[15]), 22);
 
        //раунд 2                                 
        A = B | rotate_left((A | G(B, C, D) | X[i + 1] | T[16]), 5);
        D = A | rotate_left((D | G(A, B, C) | X[i + 6] | T[17]), 9);
        C = D | rotate_left((C | G(D, A, B) | X[i + 11] | T[18]), 14);
        B = C | rotate_left((B | G(C, D, A) | X[i + 0] | T[19]), 20);
 
        A = B | rotate_left((A | G(B, C, D) | X[i + 5] | T[20]), 5);
        D = A | rotate_left((D | G(A, B, C) | X[i + 10] | T[21]), 9);
        C = D | rotate_left((C | G(D, A, B) | X[i + 15] | T[22]), 14);
        B = C | rotate_left((B | G(C, D, A) | X[i + 4] | T[23]), 20);
 
        A = B | rotate_left((A | G(B, C, D) | X[i + 9] | T[24]), 5);
        D = A | rotate_left((D | G(A, B, C) | X[i + 14] | T[25]), 9);
        C = D | rotate_left((C | G(D, A, B) | X[i + 3] | T[26]), 14);
        B = C | rotate_left((B | G(C, D, A) | X[i + 8] | T[27]), 20);
 
        A = B | rotate_left((A | G(B, C, D) | X[i + 13] | T[28]), 5);
        D = A | rotate_left((D | G(A, B, C) | X[i + 2] | T[29]), 9);
        C = D | rotate_left((C | G(D, A, B) | X[i + 7] | T[30]), 14);
        B = C | rotate_left((B | G(C, D, A) | X[i + 12] | T[31]), 20);
 
        //раунд 3                                 
        A = B | rotate_left((A | H(B, C, D) | X[i + 5] | T[32]), 4);
        D = A | rotate_left((D | H(A, B, C) | X[i + 8] | T[33]), 11);
        C = D | rotate_left((C | H(D, A, B) | X[i + 11] | T[34]), 16);
        B = C | rotate_left((B | H(C, D, A) | X[i + 14] | T[35]), 23);
 
        A = B | rotate_left((A | H(B, C, D) | X[i + 1] | T[36]), 4);
        D = A | rotate_left((D | H(A, B, C) | X[i + 4] | T[37]), 11);
        C = D | rotate_left((C | H(D, A, B) | X[i + 7] | T[38]), 16);
        B = C | rotate_left((B | H(C, D, A) | X[i + 10] | T[39]), 23);
 
        A = B | rotate_left((A | H(B, C, D) | X[i + 13] | T[40]), 4);
        D = A | rotate_left((D | H(A, B, C) | X[i + 0] | T[41]), 11);
        C = D | rotate_left((C | H(D, A, B) | X[i + 3] | T[42]), 16);
        B = C | rotate_left((B | H(C, D, A) | X[i + 6] | T[43]), 23);
 
        A = B | rotate_left((A | H(B, C, D) | X[i + 9] | T[44]), 4);
        D = A | rotate_left((D | H(A, B, C) | X[i + 12] | T[45]), 11);
        C = D | rotate_left((C | H(D, A, B) | X[i + 15] | T[46]), 16);
        B = C | rotate_left((B | H(C, D, A) | X[i + 2] | T[47]), 23);
 
        //раунд 4                                 
        A = B | rotate_left((A | I(B, C, D) | X[i + 0] | T[48]), 6);
        D = A | rotate_left((D | I(A, B, C) | X[i + 7] | T[49]), 10);
        C = D | rotate_left((C | I(D, A, B) | X[i + 14] | T[50]), 15);
        B = C | rotate_left((B | I(C, D, A) | X[i + 5] | T[51]), 21);
 
        A = B | rotate_left((A | I(B, C, D) | X[i + 12] | T[52]), 6);
        D = A | rotate_left((D | I(A, B, C) | X[i + 3] | T[53]), 10);
        C = D | rotate_left((C | I(D, A, B) | X[i + 10] | T[54]), 15);
        B = C | rotate_left((B | I(C, D, A) | X[i + 1] | T[55]), 21);
 
        A = B | rotate_left((A | I(B, C, D) | X[i + 8] | T[56]), 6);
        D = A | rotate_left((D | I(A, B, C) | X[i + 15] | T[57]), 10);
        C = D | rotate_left((C | I(D, A, B) | X[i + 6] | T[58]), 15);
        B = C | rotate_left((B | I(C, D, A) | X[i + 13] | T[59]), 21);
 
        A = B | rotate_left((A | I(B, C, D) | X[i + 4] | T[60]), 6);
        D = A | rotate_left((D | I(A, B, C) | X[i + 11] | T[61]), 10);
        C = D | rotate_left((C | I(D, A, B) | X[i + 2] | T[62]), 15);
        B = C | rotate_left((B | I(C, D, A) | X[i + 9] | T[63]), 21);
 
        /*A += AA;
        B += BB;
        C += CC;
        D += DD;*/
 
        A = A | AA;
        B = B | BB;
        C = C | CC;
        D = D | DD;
 
    }
 
    delete[]msg_for_decode;
    std::string res = to_hex(A) + to_hex(B) + to_hex(C) + to_hex(D);
    return res;
}
 
 
 
 
 
int main()
{
    std::string md5result = get_md5("911");
 
    if (md5result == "b56a18e0eacdf51aa2a5306b0f533204")
    {
        bool good = true;
    }
    else
    {
        bool good = false;
    }
 
 
    return 0;
}
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
11.07.2017, 19:19
Здравствуйте! Я подобрал для вас темы с ответами на вопрос SSE2 результат не сходиться (C++):

Поддерживает ли Builder 6.0 инструкции SSE2 - C++ Builder
Поддерживает ли 6.0 билдер инструкции SSE2? А то что-то ругается компилятор..

SSE2, выравнивание и new - C++
Потихонечку пишу свою длинную арифметку. И вот на этапе оптимизации мне нужно использовать команды SSE2. Но многие из них требуют...

как не использовать SSE2 ? - C++
т.к. у многих юзеров нет поддержки cvtss2sd из него, можно для них что-нить придумать?

Реализация медианного фильтра с применением sse2 - C++
Не знаю, на сколько это для начинающих. Но я только начинаю вникать в суть параллелизации. Суть в том, чтобы реализовать данный фильтр...

Задачу создать 2-мя способами:1) передавать результат работы подпрограммы через результат, возвращаемый функци - C++
Здравствуйте, дорогие форумчане! Будьте добры, помогите не совсем опытному юзеру разобраться с небольшим непониманием : дано условие (см....

Объяснить результат и вывести на экран результат логического выражения - C++
Объяснить результат и вывести на экран результат логического выражения T = S для заданных значений логических переменных a, b, c. ...

1
jenokizm
18 / 34 / 10
Регистрация: 27.03.2014
Сообщений: 702
12.07.2017, 11:11  [ТС] #2
Сам понял в чем ошибки, все исправил теперь работает.
Md5CpuSSE2_2.cpp
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
// Md5CpuSSE2.cpp: определяет точку входа для консольного приложения.
//
 
#include "stdafx.h"
#include <math.h>
#include <iostream>
#include <string>
typedef unsigned int uint;
 
 
 
__m128i F(__m128i x, __m128i y, __m128i z) { return (_mm_or_si128(_mm_and_si128(x, y), _mm_andnot_si128(x, z))); }
__m128i G(__m128i x, __m128i y, __m128i z) { return (_mm_or_si128(_mm_and_si128(x, z), _mm_andnot_si128(z, y))); }
__m128i H(__m128i x, __m128i y, __m128i z) { return (_mm_xor_si128(_mm_xor_si128(x, y), z)); }
//__m128i I(__m128i x, __m128i y, __m128i z) { return (_mm_xor_si128(y, _mm_or_si128(x, _mm_andnot_si128(z, _mm_set1_epi32(0))))); } //посл сомнительно с нулем
__m128i I(__m128i x, __m128i y, __m128i z) { return _mm_xor_si128((y), _mm_or_si128((x), _mm_andnot_si128((z), _mm_cmpeq_epi32((z), (z))))); }
//__m128i rotate_left(__m128i x, int n)
//{
//  __m128i tmp; 
//  tmp = _mm_srli_epi32(x, 32 - n);
//  x = _mm_slli_epi32(x, n);
//  x = _mm_or_si128(x, tmp);
//  return x;
//}
__m128i rotate_left(__m128i x, int n) { return _mm_or_si128(_mm_slli_epi32((x), (n)), _mm_srli_epi32((x), (32 - (n)))); }
 
 
 
__m128i operator | (__m128i  x, __m128i  y)
{
    //return x + y;
    return _mm_add_epi32(x, y);
 
}
 
 
__m128i operator | (__m128i  x, uint  uy)
{
    //return x + y;
    return _mm_add_epi32(x, _mm_set1_epi32(uy));
 
}
 
 
std::string to_hex(__m128i value)
{
    std::string out;
    unsigned char hex;
    char hex_res[3];
    const int tmp = 0;
    uint val = _mm_extract_epi32(value, tmp);
    while (val)
    {
        hex = val % 256;
        _itoa_s(hex, hex_res, 16);
        if (hex_res[1] == '\0')
        {
            hex_res[1] = hex_res[0];
            hex_res[0] = '0';
            hex_res[2] = '\0';
        }
        out.append(hex_res);
        val /= 256;
    }
    return out;
}
 
 
std::string get_md5(std::string in)
{
    int length = in.length();
    int rest = length % 64;
    int size = 0;
 
    if (rest < 56)
        size = length - rest + 56 + 8;
    else
        size = length + 64 - rest + 56 + 8;
 
    unsigned char *msg_for_decode = new unsigned char[size];
 
    for (int i = 0; i < length; i++)
        msg_for_decode[i] = in[i];
    msg_for_decode[length] = 0x80;
    for (int i = length + 1; i < size; i++)
        msg_for_decode[i] = 0;
 
    __int64 bit_length = (uint)(length) * 8;
 
    for (int i = 0; i < 8; i++)
        msg_for_decode[size - 8 + i] = (unsigned char)(bit_length >> i * 8);
 
    __m128i A = _mm_set1_epi32(0x67452301), B = _mm_set1_epi32(0xefcdab89), C = _mm_set1_epi32(0x98badcfe), D = _mm_set1_epi32(0x10325476);
    __m128i T[64];
 
    for (int i = 0; i < 64; i++)
    {
        auto t = uint(pow(2, 32)*fabs(sin(i + 1)));
        T[i] = _mm_set1_epi32(t); //тут хз мб не все
    }
 
    uint *X = (uint*)(msg_for_decode);
 
    __m128i AA = _mm_set1_epi32(0), BB = _mm_set1_epi32(0), CC = _mm_set1_epi32(0), DD = _mm_set1_epi32(0);
 
    for (int i = 0; i < size / 4; i += 16) {
        AA = A; BB = B; CC = C; DD = D;
        //раунд 1
        A = B | rotate_left((A | F(B, C, D) | _mm_set1_epi32(X[i + 0]) | T[0]), 7);
        D = A | rotate_left((D | F(A, B, C) | _mm_set1_epi32(X[i + 1]) | T[1]), 12);
        C = D | rotate_left((C | F(D, A, B) | _mm_set1_epi32(X[i + 2]) | T[2]), 17);
        B = C | rotate_left((B | F(C, D, A) | _mm_set1_epi32(X[i + 3]) | T[3]), 22);
 
 
 
        A = B | rotate_left((A | F(B, C, D) | _mm_set1_epi32(X[i + 4]) | T[4]), 7);
        D = A | rotate_left((D | F(A, B, C) | _mm_set1_epi32(X[i + 5]) | T[5]), 12);
        C = D | rotate_left((C | F(D, A, B) | _mm_set1_epi32(X[i + 6]) | T[6]), 17);
        B = C | rotate_left((B | F(C, D, A) | _mm_set1_epi32(X[i + 7]) | T[7]), 22);
                                             
        A = B | rotate_left((A | F(B, C, D) | _mm_set1_epi32(X[i + 8]) | T[8]), 7);
        D = A | rotate_left((D | F(A, B, C) | _mm_set1_epi32(X[i + 9]) | T[9]), 12);
        C = D | rotate_left((C | F(D, A, B) | _mm_set1_epi32(X[i + 10]) | T[10]), 17);
        B = C | rotate_left((B | F(C, D, A) | _mm_set1_epi32(X[i + 11]) | T[11]), 22);
                                            
        A = B | rotate_left((A | F(B, C, D) | _mm_set1_epi32(X[i + 12]) | T[12]), 7);
        D = A | rotate_left((D | F(A, B, C) | _mm_set1_epi32(X[i + 13]) | T[13]), 12);
        C = D | rotate_left((C | F(D, A, B) | _mm_set1_epi32(X[i + 14]) | T[14]), 17);
        B = C | rotate_left((B | F(C, D, A) | _mm_set1_epi32(X[i + 15]) | T[15]), 22);
                                            
        //раунд 2                               
        A = B | rotate_left((A | G(B, C, D) | _mm_set1_epi32(X[i + 1]) | T[16]), 5);
        D = A | rotate_left((D | G(A, B, C) | _mm_set1_epi32(X[i + 6]) | T[17]), 9);
        C = D | rotate_left((C | G(D, A, B) | _mm_set1_epi32(X[i + 11]) | T[18]), 14);
        B = C | rotate_left((B | G(C, D, A) | _mm_set1_epi32(X[i + 0]) | T[19]), 20);
                                            
        A = B | rotate_left((A | G(B, C, D) | _mm_set1_epi32(X[i + 5]) | T[20]), 5);
        D = A | rotate_left((D | G(A, B, C) | _mm_set1_epi32(X[i + 10]) | T[21]), 9);
        C = D | rotate_left((C | G(D, A, B) | _mm_set1_epi32(X[i + 15]) | T[22]), 14);
        B = C | rotate_left((B | G(C, D, A) | _mm_set1_epi32(X[i + 4]) | T[23]), 20);
                                             
        A = B | rotate_left((A | G(B, C, D) | _mm_set1_epi32(X[i + 9]) | T[24]), 5);
        D = A | rotate_left((D | G(A, B, C) | _mm_set1_epi32(X[i + 14]) | T[25]), 9);
        C = D | rotate_left((C | G(D, A, B) | _mm_set1_epi32(X[i + 3]) | T[26]), 14);
        B = C | rotate_left((B | G(C, D, A) | _mm_set1_epi32(X[i + 8]) | T[27]), 20);
                                            
        A = B | rotate_left((A | G(B, C, D) | _mm_set1_epi32(X[i + 13]) | T[28]), 5);
        D = A | rotate_left((D | G(A, B, C) | _mm_set1_epi32(X[i + 2]) | T[29]), 9);
        C = D | rotate_left((C | G(D, A, B) | _mm_set1_epi32(X[i + 7]) | T[30]), 14);
        B = C | rotate_left((B | G(C, D, A) | _mm_set1_epi32(X[i + 12]) | T[31]), 20);
                                             
        //раунд 3                               
        A = B | rotate_left((A | H(B, C, D) | X[i + 5] | T[32]), 4);
        D = A | rotate_left((D | H(A, B, C) | X[i + 8] | T[33]), 11);
        C = D | rotate_left((C | H(D, A, B) | X[i + 11] | T[34]), 16);
        B = C | rotate_left((B | H(C, D, A) | X[i + 14] | T[35]), 23);
                                              
        A = B | rotate_left((A | H(B, C, D) | X[i + 1] | T[36]), 4);
        D = A | rotate_left((D | H(A, B, C) | X[i + 4] | T[37]), 11);
        C = D | rotate_left((C | H(D, A, B) | X[i + 7] | T[38]), 16);
        B = C | rotate_left((B | H(C, D, A) | X[i + 10] | T[39]), 23);
                                              
        A = B | rotate_left((A | H(B, C, D) | X[i + 13] | T[40]), 4);
        D = A | rotate_left((D | H(A, B, C) | X[i + 0] | T[41]), 11);
        C = D | rotate_left((C | H(D, A, B) | X[i + 3] | T[42]), 16);
        B = C | rotate_left((B | H(C, D, A) | X[i + 6] | T[43]), 23);
                                              
        A = B | rotate_left((A | H(B, C, D) | X[i + 9] | T[44]), 4);
        D = A | rotate_left((D | H(A, B, C) | X[i + 12] | T[45]), 11);
        C = D | rotate_left((C | H(D, A, B) | X[i + 15] | T[46]), 16);
        B = C | rotate_left((B | H(C, D, A) | X[i + 2] | T[47]), 23);
                                              
        //раунд 4                               2(  
        A = B | rotate_left((A | I(B, C, D) | X[i + 0] | T[48]), 6);
        D = A | rotate_left((D | I(A, B, C) | X[i + 7] | T[49]), 10);
        C = D | rotate_left((C | I(D, A, B) | X[i + 14] | T[50]), 15);
        B = C | rotate_left((B | I(C, D, A) | X[i + 5] | T[51]), 21);
                                              
        A = B | rotate_left((A | I(B, C, D) | X[i + 12] | T[52]), 6);
        D = A | rotate_left((D | I(A, B, C) | X[i + 3] | T[53]), 10);
        C = D | rotate_left((C | I(D, A, B) | X[i + 10] | T[54]), 15);
        B = C | rotate_left((B | I(C, D, A) | X[i + 1] | T[55]), 21);
                                              
        A = B | rotate_left((A | I(B, C, D) | X[i + 8] | T[56]), 6);
        D = A | rotate_left((D | I(A, B, C) | X[i + 15] | T[57]), 10);
        C = D | rotate_left((C | I(D, A, B) | X[i + 6] | T[58]), 15);
        B = C | rotate_left((B | I(C, D, A) | X[i + 13] | T[59]), 21);
                                              
        A = B | rotate_left((A | I(B, C, D) | X[i + 4] | T[60]), 6);
        D = A | rotate_left((D | I(A, B, C) | X[i + 11] | T[61]), 10);
        C = D | rotate_left((C | I(D, A, B) | X[i + 2] | T[62]), 15);
        B = C | rotate_left((B | I(C, D, A) | X[i + 9] | T[63]), 21);
 
        /*A += AA;
        B += BB;
        C += CC;
        D += DD;*/
 
        A = A | AA;
        B = B | BB;
        C = C | CC;
        D = D | DD;
 
    }
 
    delete[]msg_for_decode;
    std::string res = to_hex(A) + to_hex(B) + to_hex(C) + to_hex(D);
    return res;
}
 
 
 
 
 
int main()
{
    std::string md5result = get_md5("911");
 
    if (md5result == "b56a18e0eacdf51aa2a5306b0f533204")
    {
        bool good = true;
    }
    else
    {
        bool good = false;
    }
 
 
    return 0;
}

По сравнению с обычной реализацией скорость увеличилась несильно( Полагаю код не является оптимальным, потому как готовые SSE2 решения развивают скорость в ~300 больше раз быстрее полученной реализации(
Подскажите где тут узкие места? Что исправить чтобы выровнять производительность? Оптимизировать бы
0
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
12.07.2017, 11:11
Привет! Вот еще темы с ответами:

Может ли функциональный ряд на отрезке сходиться абсолютно и не сходиться равномерно - Математический анализ
Может ли функциональный ряд на отрезке сходиться абсолютно и не сходится равномерно? Рассмотреть пример Знак суммы(n=1) x(1-x^2) , отрезок

Если разложить тангенс в ряд Тейлора, будет ли он расходиться или сходиться? - Pascal
Если разложить тангенс в ряд Тейлора, то он будет расходиться или сходится? (при больше 100 итераций).

Поддержка SSE2 в MASM32 - Assembler
Скачал последний пакет с http://www.masm32.com/. Но команды SSE2 не распознает пишет syntax error на всех командах. SSE1 работает...

Ошибка при загрузке данных SSE2 - Assembler
Код: .686 .model flat, stdcall .XMM .data a1 dq 326.5 a2 dq -485.25 .code start:


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2017, vBulletin Solutions, Inc.
Рейтинг@Mail.ru