Форум программистов, компьютерный форум CyberForum.ru

Перемножить матрицы (OpenMP) - C++

Восстановить пароль Регистрация
Другие темы раздела
C++ Из заданного множества точек на плоскости выбрать две различные точки http://www.cyberforum.ru/cpp-beginners/thread1695718.html
Из заданного множества точек на плоскости выбрать две различные точки так, что бы количества точек, лежащих по разные стороны прямой, проходящей через эти две точки, различались наименьшим образом. Не пойму как написать программу по задаче.
C++ Двоеточие после имени поля Что означает цифра после двоеточия в определении полей структуры, где это может пригодится? struct Test { unsigned num : 1; }; http://www.cyberforum.ru/cpp-beginners/thread1695699.html
C++ Как сделать массив с элементами типа запись
Здравствуйте,у меня есть задание: "Количество мячей, забитых и пропущенных каждой из шестнадцати футбольных команд в каждой из 15 игр, записано в массиве. Его элементами являются массивы величин типа запись. " Интересует именно то что я выделил красным. Подскажите пожалуйста как это сделать на словах. И пару слов о использовании typedef,в интернете уже читал. Вот пытался как-то это...
SFML Разделение на потоки работы с sfml
хочу написать программу с двумя потоками:один отвечает за GUI ,второй за логику,ожидание нажатия клавиш и т.д. Потоки должны быть реализованы стандартным методом библиотекой std::thread. Написал следующий код: #include<SFML/Graphics.hpp> #include <iostream> #include<thread> using namespace sf; using namespace std; void GUI(RenderWindow *window){ Image fonImage;
C++ Внутренний и внешний циклы http://www.cyberforum.ru/cpp-beginners/thread1695691.html
n - натуральное число, x - действительное число, которое меняется в заданных границах с шагом h.Вычислить, используя внешний(переменная m_x1) и внутренний(переменная m_n) циклы: \left( \left(\frac{1}{1!} \right)+\left(\sqrt{\left|x \right|} \right)\right)+\left(\left(\frac{1}{2!} \right)+\left(\sqrt{\left|x \right|} \right)\right)+... +\left(\left(\frac{1}{n!} \right)+\left(\sqrt{\left|x...
C++ в тесктовом файле считать информацию о пустых строках как считайть информацию о пустых строках идущих подряд во входном файле ,а затем в выходном файле поместить информацию содержащую количество повторений и номер строки ?? #include "stdafx.h" #include <stdio.h> #include <iomanip> #include <iostream> #include <string> #include <fstream> #include <iomanip> using namespace std; подробнее

Показать сообщение отдельно
saserlend
10 / 10 / 1
Регистрация: 25.11.2011
Сообщений: 138
27.03.2016, 13:42     Перемножить матрицы (OpenMP)
В общем дело такое, проблема именно в применении OpenMP к уже написанным функциям перемножения. Вообще понять не могу , что там и куда пишется. Тута все написанное:
Кликните здесь для просмотра всего текста
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
#include <stdio.h>
#include <iostream>
#include <emmintrin.h>
#include <windows.h>
#include <ctime>
#include <omp.h>
 
#define M 100
#define k 12
 
#pragma region func
void showMatrix(double *matrix, int matrixSize, int width);
void loading(int second);
 
double* MatrixMultiplication(double*  matrix_A, double*  matrix_B);
double* MatrixMultiplication_intrinsic(double*  matrix_A, double*  matrix_B);
double* MatrixMultiplication_OpenMP(double*  matrix_A, double*  matrix_B);
#pragma endregion
 
int main()
{
    size_t matrixByteSize = M * M * k * k * sizeof(double);
    double*  matrix_A = (double*)_aligned_malloc(matrixByteSize, 16);
    double*  matrix_B = (double*)_aligned_malloc(matrixByteSize, 16);
 
    if(matrix_A == NULL || matrix_B == NULL)
    {
        std::cout << "Allocate error!\n";
        system("pause");
        return 0;
    }
 
    int matrixSize = M * M * k * k;
 
    // Заполняем матрицы
    for(int i = 0; i < matrixSize; i++)
    {
        matrix_A[i] = i + 1;
        matrix_B[i] = i + 1;
    }
    
    double* result_vectorized = MatrixMultiplication(matrix_A, matrix_B);
    double* result_asm = MatrixMultiplication_intrinsic(matrix_A, matrix_B);
    double* result_OpenMp = MatrixMultiplication_OpenMP(matrix_A, matrix_B);
 
    bool isSame = true;
    
    for(int i = 0; i < matrixSize; i++)
    {
        if(result_vectorized[i] != result_asm[i])
        {
            isSame = false;
            break;
        }
    }
    
    if(isSame)
        std::cout << "The results are the same\n";
    else
        std::cout << "The results do not match\n";
    
    /*
    showMatrix(matrix_A, matrixSize, M * k);
    showMatrix(matrix_B, matrixSize, M * k);
    showMatrix(result_asm, matrixSize, M * k);
    */ 
    
    system("pause");
    return 0;
}
 
double* MatrixMultiplication_OpenMP(double* matrix_A, double* matrix_B)
{
    size_t matrixByteSize = M * M * k * k * sizeof(double);
    double*  matrix_C = (double*)_aligned_malloc(matrixByteSize, 16);
 
    int matrixSize = M * M * k * k;
 
    // Обнуляем результирующую матрицу
    for(int i = 0; i < matrixSize; i++)
        matrix_C[i] = 0;
 
    clock_t startTime = clock();
 
    omp_set_dynamic(0);
    omp_set_num_threads(10);
 
    #pragma omp parallel for shared(matrix_A, matrix_B, matrix_C,M) private(i,j)
    for(int i = 0; i < M; i++)
    {
        loading(i);
        for(int j = 0; j < M; j++)
        {
            int index = i * M * k * k + j * k;
            for(int step = 0; step < M; step++)
            {
                int index1 = i * M * k * k + step * k;
                int index2 = step * M * k * k + j * k;
 
                for(int i_in = 0; i_in < k; i_in++)
                {           
                    for(int step_in = 0; step_in < k; step_in++)
                    {                       
                        for(int j_in = 0; j_in < k; j_in++)
                        {
                            matrix_C[index + i_in * (M * k) + j_in] += 
                                matrix_A[index1 + i_in * (M * k)+ step_in] * matrix_B[index2 + step_in * (M * k) + j_in];
                        }
                    }
                }
            }
        }
    }
 
    clock_t executionTime = clock() - startTime;
    std::cout << "Execution time of vectorized loops(OpenMP) is " << executionTime << " ms\n\n";
 
    return matrix_C;
 
}
 
double* MatrixMultiplication(double*  matrix_A, double*  matrix_B)
{
    size_t matrixByteSize = M * M * k * k * sizeof(double);
    double*  matrix_C = (double*)_aligned_malloc(matrixByteSize, 16);
 
    int matrixSize = M * M * k * k;
 
    // Обнуляем результирующую матрицу
    for(int i = 0; i < matrixSize; i++)
        matrix_C[i] = 0;
 
    clock_t startTime = clock();
 
    // Перемножаем матрицы A и B, сохраняем результат в матрицу C
    for(int i = 0; i < M; i++)
    {
        loading(i);
        for(int j = 0; j < M; j++)
        {
            int index = i * M * k * k + j * k;
            for(int step = 0; step < M; step++)
            {
                int index1 = i * M * k * k + step * k;
                int index2 = step * M * k * k + j * k;
 
                for(int i_in = 0; i_in < k; i_in++)
                {           
                    for(int step_in = 0; step_in < k; step_in++)
                    {                       
                        for(int j_in = 0; j_in < k; j_in++)
                        {
                            matrix_C[index + i_in * (M * k) + j_in] += 
                                matrix_A[index1 + i_in * (M * k)+ step_in] * matrix_B[index2 + step_in * (M * k) + j_in];
                        }
                    }
                }
            }
        }
    }
 
    clock_t executionTime = clock() - startTime;
    std::cout << "Execution time of vectorized loops is " << executionTime << " ms\n\n";
 
    return matrix_C;
}
 
double* MatrixMultiplication_intrinsic(double*  matrix_A, double*  matrix_B)
{
    size_t matrixByteSize = M * M * k * k * sizeof(double);
    double*  matrix_C = (double*)_aligned_malloc(matrixByteSize, 16);
 
    int matrixSize = M * M * k * k;
 
    // Обнуляем результирующую матрицу
    for(int i = 0; i < matrixSize; i++)
        matrix_C[i] = 0;
 
    clock_t startTime = clock();
 
    // Перемножаем матрицы A и B, сохраняем результат в матрицу C
    int i, j, index, index1, index2, t1, i_in, j_in, step_in, step;
    
    for(i = 0; i < M; i++)
    {
        loading(i);
        for(j = 0; j < M; j++)
        {
            index = i * M * k * k + j * k;
            for(step = 0; step < M; step++)
            {
                index1 = i * M * k * k + step * k;
                index2 = step * M * k * k + j * k;
 
                for(i_in = 0; i_in < k; i_in++)
                {           
                    t1 = index1 + i_in * (M * k);
                    for(step_in = 0; step_in < k; step_in++)
                    {   
                        __m128d mA = _mm_set_pd(matrix_A[t1 + step_in], matrix_A[t1 + step_in]);
                        
                        int tmp = index + i_in * (M * k);
                        int tmp2 = index2 + step_in * (M * k);
 
                        for(j_in = 0; j_in < k; j_in += 2)
                        {                   
                            __m128d c = _mm_load_pd(matrix_C + tmp + j_in);
                            __m128d b = _mm_load_pd(matrix_B + tmp2 + j_in);
 
                            b = _mm_mul_pd(b, mA);
                            c = _mm_add_pd(c, b);
 
                            _mm_store_pd(matrix_C + tmp + j_in, c);
                        }
                    }
                }       
            }
        }
    }
 
    clock_t executionTime = clock() - startTime;
    std::cout << "Execution time of intrinsic loops is " << executionTime << " ms\n\n";
 
    return matrix_C;
}
 
void showMatrix(double* matrix, int matrixSize, int width)
{
    std::cout << "\n\n";
    for(int i = 0; i < matrixSize; i++)
    {
        std::cout << "\t" << matrix[i];
 
        if((i + 1) % width == 0)
            std::cout << "\n";
    }
}
 
void loading(int second)
{
    if(second <= M) std::cout << second << "%\r";
    else second = 0;
}

Но мне все же интересно как эти циклы работают #pragma omp parallel for shared(matrix_A, matrix_B, matrix_C,M) private(i,j). Буду благодарен за какие либо пояснения, и особенно данном коде.)

Добавлено через 10 часов 34 минуты
up.
После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
 
Текущее время: 10:42. Часовой пояс GMT +3.
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2016, vBulletin Solutions, Inc.
Рейтинг@Mail.ru