0 / 0 / 0
Регистрация: 07.06.2015
Сообщений: 4
1

Длинная арифметика, перемножение массивов

13.05.2020, 18:12. Показов 1608. Ответов 0

Author24 — интернет-сервис помощи студентам
Всем привет! Пишу программу перемножения двух длинных знакоразрядных чисел, представленных в виде массивов. В результате должно получиться две матрицы: матрица переносов и матрица остатков. Далее их нужно сложить со смещением (нулевой элемент строки матрицы переносов складывается с первым элементом соответствующей строки матрицы остатков и т.д.), получаем третью матрицу. Поскольку параллельная генерация матриц и их сложение происходит со смещением, то нужна синхронизация потоков и блоков. Использую для синхронизации пример из это статьи: https://habr.com/ru/post/151897/#references

При размерах массивов 640 и 640, размер блока 32х32 потока, а блоков 20х20. Проблема в том, что программа работает через раз. То выдает в файл правильный результат, то зависает. В чем может быть причина?

C
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
__device__ volatile unsigned int count_x;
 
__device__ volatile unsigned int count_y;
 
/* Фунция синхронизации потоков на device: */
__device__ void SyncWholeDevice_x()
{
    // Переменная под значение счетчика до инкремента:
    unsigned int oldc;
    // Каждый поток пождет, пока записанное им в gmem и smem, станет видно всему grid`у:
    __threadfence();
 
    // Первые потоки каждого block`а атомарным образом инкрементируют (каждый по разу)
    //флаг-аккумулятор:
    if (threadIdx.x == 0)
    {
        // В oldc кладется значение count до "+1":
        oldc = atomicInc((unsigned int*)&count_x, gridDim.x - 1);
        // Пусть поток подождет, пока его инкремент "дойдет" до ячейки в gmem:
        __threadfence();
 
        // Если это последний блок (остальные уже инкрементировали count и ждут за счет цикла ниже),
        //то и незачем ему считывать count, так как предварительно убедились, что его инкремент
        //записан в gmem. Если мы в блоке, который еще не "отработал", то его первый поток будет
        //зациклен, пока все остальные блоки не "отчитаются" о завершении счета.
        if (oldc != (gridDim.x - 1))
            while (count_x != 0);
    }
 
    // Заставляем потоки в каждом блоке ждать, пока первые не выйдут из цикла:
    __syncthreads();
}
 
__device__ void SyncWholeDevice_y()
{
    // Переменная под значение счетчика до инкремента:
    unsigned int oldc;
    // Каждый поток пождет, пока записанное им в gmem и smem, станет видно всему grid`у:
    __threadfence();
 
    // Первые потоки каждого block`а атомарным образом инкрементируют (каждый по разу)
    //флаг-аккумулятор:
    if (threadIdx.y == 0)
    {
        // В oldc кладется значение count до "+1":
        oldc = atomicInc((unsigned int*)&count_y, gridDim.y - 1);
        // Пусть поток подождет, пока его инкремент "дойдет" до ячейки в gmem:
        __threadfence();
 
        // Если это последний блок (остальные уже инкрементировали count и ждут за счет цикла ниже),
        //то и незачем ему считывать count, так как предварительно убедились, что его инкремент
        //записан в gmem. Если мы в блоке, который еще не "отработал", то его первый поток будет
        //зациклен, пока все остальные блоки не "отчитаются" о завершении счета.
        if (oldc != (gridDim.y - 1))
            while (count_y != 0);
    }
 
    // Заставляем потоки в каждом блоке ждать, пока первые не выйдут из цикла:
    __syncthreads();
}
 
 
/* Фунция начальной инициализации флага-счетчика: */
__device__ void InitSyncWholeDevice_x(const int index)
{
    if (index == 0)                            // Первый поток в grid`е (индекс 0) запишет нулевое
        count_x = 0;                             //начальное значение в счетчик блоков.
 
    if (threadIdx.x == 0)                      // Первый поток каждого block`а будет ждать, пока флаг-
        while (count_x != 0);                    //счетчик действительно станет нулем.
 
    // Заставляем остальные потоки каждого block`а ждать, пока первые не выйдут из цикла:
    __syncthreads();
    // Все, флаг-аккумулятор записан. Все потоки на device более-менее идут вровень.
}
 
__device__ void InitSyncWholeDevice_y(const int index)
{
    if (index == 0)                            // Первый поток в grid`е (индекс 0) запишет нулевое
        count_y = 0;                             //начальное значение в счетчик блоков.
 
    if (threadIdx.y == 0)                      // Первый поток каждого block`а будет ждать, пока флаг-
        while (count_y != 0);                    //счетчик действительно станет нулем.
 
    // Заставляем остальные потоки каждого block`а ждать, пока первые не выйдут из цикла:
    __syncthreads();
    // Все, флаг-аккумулятор записан. Все потоки на device более-менее идут вровень.
}
 
 
 
__global__ void matrixCP(int* a, int* b, int* c, int* p, int* P, int a_n, int b_n) {
    int yIndex = blockIdx.y * blockDim.y + threadIdx.y;
    int xIndex = blockIdx.x * blockDim.x + threadIdx.x;
 
        InitSyncWholeDevice_x(blockIdx.x * blockDim.x + threadIdx.x);
        InitSyncWholeDevice_y(blockIdx.y * blockDim.y + threadIdx.y);
 
        *(p + yIndex * (b_n + 1) + xIndex + 1) = a[a_n - 1 - yIndex] * b[xIndex] % 10;
        *(c + yIndex * (b_n + 1) + xIndex) = a[a_n - 1 - yIndex] * b[xIndex] / 10;
        SyncWholeDevice_x();
        SyncWholeDevice_y();
        *(P + yIndex * (b_n + 1) + xIndex) = *(c + yIndex * (b_n + 1) + xIndex) + *(p + yIndex * (b_n + 1) + xIndex);
        *(P + yIndex * (b_n + 1) + b_n) = *(c + yIndex * (b_n + 1) + b_n) + *(p + yIndex * (b_n + 1) + b_n);
    
}
 
 
 
 
void sd_mul_par(int *& a, int *& b, int a_n, int b_n)
{
 
    int* c = (int*)malloc(a_n * (b_n + 1) * sizeof(int));
    int* p = (int*)malloc(a_n * (b_n + 1) * sizeof(int));
    int* P = (int*)malloc(a_n * (b_n + 1) * sizeof(int));
    int* S = (int*)malloc((a_n + b_n) * sizeof(int));
    int i, j;
 
    for (i = 0; i < a_n; i++)
    {
        *(c + i * (b_n + 1) + b_n) = 0;
        *(p + i * (b_n + 1)) = 0;
    }
    for (i = 0; i < a_n + b_n; i++)
        *(S + i) = 0;
 
    int* dev_c, * dev_p, * dev_a, * dev_b, * dev_P, * dev_S; //указатели на выделяемую память
 
    int size_c = a_n * (b_n + 1) * sizeof(int); //выделяемая память
    int size_p = a_n * (b_n + 1) * sizeof(int); //выделяемая память
    int size_a = a_n * sizeof(int); //выделяемая память
    int size_b = b_n * sizeof(int); //выделяемая память
    int size_P = a_n * (b_n + 1) * sizeof(int); //выделяемая память
    int size_S = (a_n + b_n) * sizeof(int);
 
    cudaMalloc((void**)&dev_a, size_a); //выделение памяти
    cudaMalloc((void**)&dev_b, size_b);
    cudaMalloc((void**)&dev_c, size_c);
    cudaMalloc((void**)&dev_p, size_p);
    cudaMalloc((void**)&dev_P, size_P);
    cudaMalloc((void**)&dev_S, size_S);
 
    cudaMemcpy(dev_a, a, size_a, cudaMemcpyHostToDevice); //копирование на GPU
    cudaMemcpy(dev_b, b, size_b, cudaMemcpyHostToDevice); //копирование на GPU
    cudaMemcpy(dev_c, c, size_c, cudaMemcpyHostToDevice); //копирование на GPU
    cudaMemcpy(dev_p, p, size_p, cudaMemcpyHostToDevice); //копирование на GPU
    cudaMemcpy(dev_S, S, size_S, cudaMemcpyHostToDevice); //копирование на GPU
 
    dim3 dimBlock = dim3(32, 32); //число выделенных блоков
    dim3 dimGrid(20, 20); //размер и размерность сетки
 
    printf("\nCalculation start\n");
    matrixCP << <dimGrid, dimBlock >> > (dev_a, dev_b, dev_c, dev_p, dev_P, a_n, b_n); //вызов ядра
 
    cudaMemcpy(c, dev_c, size_c, cudaMemcpyDeviceToHost);
    cudaMemcpy(p, dev_p, size_p, cudaMemcpyDeviceToHost);
    cudaMemcpy(P, dev_P, size_P, cudaMemcpyDeviceToHost);
 
    cudaFree(dev_a); //освобождение памяти
    cudaFree(dev_b);
    cudaFree(dev_c);
    cudaFree(dev_p);
    cudaFree(dev_P);
 
 
    ofstream out_c_par;       // объект для записи
    out_c_par.open("c_par.txt"); // любой текстовый файл в твоём проекте
 
    for (i = 0; i < a_n; i++)
    {
        for (j = 0; j <= b_n; j++)
            out_c_par << *(c + i * (b_n + 1) + j) << ' '; // записываем матрицу в поток
        out_c_par << '\n';
    }
 
    ofstream out_p_par;       // объект для записи
    out_p_par.open("p_par.txt"); // любой текстовый файл в твоём проекте
 
    for (i = 0; i < a_n; i++)
    {
        for (j = 0; j <= b_n; j++)
            out_p_par << *(p + i * (b_n + 1) + j) << ' '; // записываем матрицу в поток
        out_p_par << '\n';
    }
 
    ofstream out_P_par;       // объект для записи
    out_P_par.open("_P_par.txt"); // любой текстовый файл в твоём проекте
 
    for (i = 0; i < a_n; i++)
    {
        for (j = 0; j <= b_n; j++)
            out_P_par << *(P + i * (b_n + 1) + j) << ' '; // записываем матрицу в поток
        out_P_par << '\n';
    }
 
}
 
 
void sd_mul_real(int *& a, int*& b, int a_n, int b_n)
{
 
    int* c = (int*)malloc(a_n * (b_n + 1) * sizeof(int));
    int* p = (int*)malloc(a_n * (b_n + 1) * sizeof(int));
    int i, j;
    for (i = 0; i < a_n; i++)
        for (j = 0; j < b_n; j++)
        {
            *(c + i * (b_n + 1) + j) = a[a_n - 1 - i] * b[j] / 10;
            *(p + i * (b_n + 1) + j + 1) = a[a_n - 1 - i] * b[j + 1 - 1] % 10;
        }
 
    for (i = 0; i < a_n; i++)
    {
        *(c + i * (b_n + 1) + b_n) = 0;
        *(p + i * (b_n + 1)) = 0;
    }
 
 
    int* P = (int*)malloc(a_n * (b_n + 1) * sizeof(int));
    for (i = 0; i < a_n; i++)
        for (j = 0; j <= b_n; j++)
        {
            *(P + i * (b_n + 1) + j) = *(c + i * (b_n + 1) + j) + *(p + i * (b_n + 1) + j);
        }
 
 
    ofstream out_c_real;       // объект для записи
    out_c_real.open("c_real.txt"); // любой текстовый файл в твоём проекте
 
    for (i = 0; i < a_n; i++)
    {
        for (j = 0; j <= b_n; j++)
            out_c_real << *(c + i * (b_n + 1) + j) << ' '; // записываем матрицу в поток
        out_c_real << '\n';
    }
 
    ofstream out_p_real;       // объект для записи
    out_p_real.open("p_real.txt"); // любой текстовый файл в твоём проекте
 
    for (i = 0; i < a_n; i++)
    {
        for (j = 0; j <= b_n; j++)
            out_p_real << *(p + i * (b_n + 1) + j) << ' '; // записываем матрицу в поток
        out_p_real << '\n';
    }
 
    ofstream out_P_real;       // объект для записи
    out_P_real.open("_P_real.txt"); // любой текстовый файл в твоём проекте
 
    for (i = 0; i < a_n; i++)
    {
        for (j = 0; j <= b_n; j++)
            out_P_real << *(P + i * (b_n + 1) + j) << ' '; // записываем матрицу в поток
        out_P_real << '\n';
    }
 
}
 
 
 
int main() {
 
    int n;
 
    n = 640;
    int* a = (int*)malloc(sizeof(int) * n);
    int* b = (int*)malloc(sizeof(int) * n);
    for (int i = 0; i < n; i++)
        a[i] = rand() % 13 - 6;
 
    n = 640;
    for (int i = 0; i <n; i++)
        b[i] = rand() % 13 - 6;
 
 
    sd_mul_real(a, b, n,n);
    sd_mul_par(a, b, n,n);
 
    printf("\n");
 
    return 0;
}
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
13.05.2020, 18:12
Ответы с готовыми решениями:

Длинная арифметика
Доброе время суток. Я разбираю длинную арифметику. И есть некоторые вопросы. К примеру возьмем...

Длинная арифметика на Си
Здравствуйте, форумчане! Хотелось бы мне начать топик, сообщения в котором я планирую пополнять...

Длинная арифметика
Необходимо реализовать операции сложения, вычитания и умножения двух чисел a и b. Каждое число...

Простая Длинная арифметика
Доброго времени суток! У меня задача. Вводим 3 числа,достаточно больших,чтобы они не помещались в...

0
13.05.2020, 18:12
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
13.05.2020, 18:12
Помогаю со студенческими работами здесь

Умножение (длинная арифметика)
Работа с массивами из десяти элементов в 12-ричной системе, реализация функции умножения...

Длинная арифметика (возведение в степень)
Возведение 2 в степень N. Мой код на СИ. Выдаёт правильный результат, но при выводе добавляется...

Арифметические действия (длинная арифметика)
Хай програмеры!!!! кто может помогите мне с таким заданием: Написать программу, которая...

Длинная арифметика: возведение в степень
Вычислить с помощью алгоритмов длинной арифметики значение числа 3^5000 и представить его в...

Длинная арифметика, подключение и работа с библиотекой
Доброго времени суток. Принудительно занялся изучением длинной арифметики. Пишу на СИ с...

Длинная арифметика: вывести n чисел Фибоначчи
Вывести в консоль n чисел Фибоначчи без переполнения #include &lt;stdio.h&gt; int main() { ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru