Длинная арифметика, перемножение массивов

@Solmaro · Регистрация: 07.06.2015

Author24 — интернет-сервис помощи студентам

Всем привет! Пишу программу перемножения двух длинных знакоразрядных чисел, представленных в виде массивов. В результате должно получиться две матрицы: матрица переносов и матрица остатков. Далее их нужно сложить со смещением (нулевой элемент строки матрицы переносов складывается с первым элементом соответствующей строки матрицы остатков и т.д.), получаем третью матрицу. Поскольку параллельная генерация матриц и их сложение происходит со смещением, то нужна синхронизация потоков и блоков. Использую для синхронизации пример из это статьи: https://habr.com/ru/post/151897/#references

При размерах массивов 640 и 640, размер блока 32х32 потока, а блоков 20х20. Проблема в том, что программа работает через раз. То выдает в файл правильный результат, то зависает. В чем может быть причина?

C

__device__ volatile unsigned int count_x;
 
__device__ volatile unsigned int count_y;
 
/* Фунция синхронизации потоков на device: */
__device__ void SyncWholeDevice_x()
{
    // Переменная под значение счетчика до инкремента:
    unsigned int oldc;
    // Каждый поток пождет, пока записанное им в gmem и smem, станет видно всему grid`у:
    __threadfence();
 
    // Первые потоки каждого block`а атомарным образом инкрементируют (каждый по разу)
    //флаг-аккумулятор:
    if (threadIdx.x == 0)
    {
        // В oldc кладется значение count до "+1":
        oldc = atomicInc((unsigned int*)&count_x, gridDim.x - 1);
        // Пусть поток подождет, пока его инкремент "дойдет" до ячейки в gmem:
        __threadfence();
 
        // Если это последний блок (остальные уже инкрементировали count и ждут за счет цикла ниже),
        //то и незачем ему считывать count, так как предварительно убедились, что его инкремент
        //записан в gmem. Если мы в блоке, который еще не "отработал", то его первый поток будет
        //зациклен, пока все остальные блоки не "отчитаются" о завершении счета.
        if (oldc != (gridDim.x - 1))
            while (count_x != 0);
    }
 
    // Заставляем потоки в каждом блоке ждать, пока первые не выйдут из цикла:
    __syncthreads();
}
 
__device__ void SyncWholeDevice_y()
{
    // Переменная под значение счетчика до инкремента:
    unsigned int oldc;
    // Каждый поток пождет, пока записанное им в gmem и smem, станет видно всему grid`у:
    __threadfence();
 
    // Первые потоки каждого block`а атомарным образом инкрементируют (каждый по разу)
    //флаг-аккумулятор:
    if (threadIdx.y == 0)
    {
        // В oldc кладется значение count до "+1":
        oldc = atomicInc((unsigned int*)&count_y, gridDim.y - 1);
        // Пусть поток подождет, пока его инкремент "дойдет" до ячейки в gmem:
        __threadfence();
 
        // Если это последний блок (остальные уже инкрементировали count и ждут за счет цикла ниже),
        //то и незачем ему считывать count, так как предварительно убедились, что его инкремент
        //записан в gmem. Если мы в блоке, который еще не "отработал", то его первый поток будет
        //зациклен, пока все остальные блоки не "отчитаются" о завершении счета.
        if (oldc != (gridDim.y - 1))
            while (count_y != 0);
    }
 
    // Заставляем потоки в каждом блоке ждать, пока первые не выйдут из цикла:
    __syncthreads();
}
 
 
/* Фунция начальной инициализации флага-счетчика: */
__device__ void InitSyncWholeDevice_x(const int index)
{
    if (index == 0)                            // Первый поток в grid`е (индекс 0) запишет нулевое
        count_x = 0;                             //начальное значение в счетчик блоков.
 
    if (threadIdx.x == 0)                      // Первый поток каждого block`а будет ждать, пока флаг-
        while (count_x != 0);                    //счетчик действительно станет нулем.
 
    // Заставляем остальные потоки каждого block`а ждать, пока первые не выйдут из цикла:
    __syncthreads();
    // Все, флаг-аккумулятор записан. Все потоки на device более-менее идут вровень.
}
 
__device__ void InitSyncWholeDevice_y(const int index)
{
    if (index == 0)                            // Первый поток в grid`е (индекс 0) запишет нулевое
        count_y = 0;                             //начальное значение в счетчик блоков.
 
    if (threadIdx.y == 0)                      // Первый поток каждого block`а будет ждать, пока флаг-
        while (count_y != 0);                    //счетчик действительно станет нулем.
 
    // Заставляем остальные потоки каждого block`а ждать, пока первые не выйдут из цикла:
    __syncthreads();
    // Все, флаг-аккумулятор записан. Все потоки на device более-менее идут вровень.
}
 
 
 
__global__ void matrixCP(int* a, int* b, int* c, int* p, int* P, int a_n, int b_n) {
    int yIndex = blockIdx.y * blockDim.y + threadIdx.y;
    int xIndex = blockIdx.x * blockDim.x + threadIdx.x;
 
        InitSyncWholeDevice_x(blockIdx.x * blockDim.x + threadIdx.x);
        InitSyncWholeDevice_y(blockIdx.y * blockDim.y + threadIdx.y);
 
        *(p + yIndex * (b_n + 1) + xIndex + 1) = a[a_n - 1 - yIndex] * b[xIndex] % 10;
        *(c + yIndex * (b_n + 1) + xIndex) = a[a_n - 1 - yIndex] * b[xIndex] / 10;
        SyncWholeDevice_x();
        SyncWholeDevice_y();
        *(P + yIndex * (b_n + 1) + xIndex) = *(c + yIndex * (b_n + 1) + xIndex) + *(p + yIndex * (b_n + 1) + xIndex);
        *(P + yIndex * (b_n + 1) + b_n) = *(c + yIndex * (b_n + 1) + b_n) + *(p + yIndex * (b_n + 1) + b_n);
    
}
 
 
 
 
void sd_mul_par(int *& a, int *& b, int a_n, int b_n)
{
 
    int* c = (int*)malloc(a_n * (b_n + 1) * sizeof(int));
    int* p = (int*)malloc(a_n * (b_n + 1) * sizeof(int));
    int* P = (int*)malloc(a_n * (b_n + 1) * sizeof(int));
    int* S = (int*)malloc((a_n + b_n) * sizeof(int));
    int i, j;
 
    for (i = 0; i < a_n; i++)
    {
        *(c + i * (b_n + 1) + b_n) = 0;
        *(p + i * (b_n + 1)) = 0;
    }
    for (i = 0; i < a_n + b_n; i++)
        *(S + i) = 0;
 
    int* dev_c, * dev_p, * dev_a, * dev_b, * dev_P, * dev_S; //указатели на выделяемую память
 
    int size_c = a_n * (b_n + 1) * sizeof(int); //выделяемая память
    int size_p = a_n * (b_n + 1) * sizeof(int); //выделяемая память
    int size_a = a_n * sizeof(int); //выделяемая память
    int size_b = b_n * sizeof(int); //выделяемая память
    int size_P = a_n * (b_n + 1) * sizeof(int); //выделяемая память
    int size_S = (a_n + b_n) * sizeof(int);
 
    cudaMalloc((void**)&dev_a, size_a); //выделение памяти
    cudaMalloc((void**)&dev_b, size_b);
    cudaMalloc((void**)&dev_c, size_c);
    cudaMalloc((void**)&dev_p, size_p);
    cudaMalloc((void**)&dev_P, size_P);
    cudaMalloc((void**)&dev_S, size_S);
 
    cudaMemcpy(dev_a, a, size_a, cudaMemcpyHostToDevice); //копирование на GPU
    cudaMemcpy(dev_b, b, size_b, cudaMemcpyHostToDevice); //копирование на GPU
    cudaMemcpy(dev_c, c, size_c, cudaMemcpyHostToDevice); //копирование на GPU
    cudaMemcpy(dev_p, p, size_p, cudaMemcpyHostToDevice); //копирование на GPU
    cudaMemcpy(dev_S, S, size_S, cudaMemcpyHostToDevice); //копирование на GPU
 
    dim3 dimBlock = dim3(32, 32); //число выделенных блоков
    dim3 dimGrid(20, 20); //размер и размерность сетки
 
    printf("\nCalculation start\n");
    matrixCP << <dimGrid, dimBlock >> > (dev_a, dev_b, dev_c, dev_p, dev_P, a_n, b_n); //вызов ядра
 
    cudaMemcpy(c, dev_c, size_c, cudaMemcpyDeviceToHost);
    cudaMemcpy(p, dev_p, size_p, cudaMemcpyDeviceToHost);
    cudaMemcpy(P, dev_P, size_P, cudaMemcpyDeviceToHost);
 
    cudaFree(dev_a); //освобождение памяти
    cudaFree(dev_b);
    cudaFree(dev_c);
    cudaFree(dev_p);
    cudaFree(dev_P);
 
 
    ofstream out_c_par;       // объект для записи
    out_c_par.open("c_par.txt"); // любой текстовый файл в твоём проекте
 
    for (i = 0; i < a_n; i++)
    {
        for (j = 0; j <= b_n; j++)
            out_c_par << *(c + i * (b_n + 1) + j) << ' '; // записываем матрицу в поток
        out_c_par << '\n';
    }
 
    ofstream out_p_par;       // объект для записи
    out_p_par.open("p_par.txt"); // любой текстовый файл в твоём проекте
 
    for (i = 0; i < a_n; i++)
    {
        for (j = 0; j <= b_n; j++)
            out_p_par << *(p + i * (b_n + 1) + j) << ' '; // записываем матрицу в поток
        out_p_par << '\n';
    }
 
    ofstream out_P_par;       // объект для записи
    out_P_par.open("_P_par.txt"); // любой текстовый файл в твоём проекте
 
    for (i = 0; i < a_n; i++)
    {
        for (j = 0; j <= b_n; j++)
            out_P_par << *(P + i * (b_n + 1) + j) << ' '; // записываем матрицу в поток
        out_P_par << '\n';
    }
 
}
 
 
void sd_mul_real(int *& a, int*& b, int a_n, int b_n)
{
 
    int* c = (int*)malloc(a_n * (b_n + 1) * sizeof(int));
    int* p = (int*)malloc(a_n * (b_n + 1) * sizeof(int));
    int i, j;
    for (i = 0; i < a_n; i++)
        for (j = 0; j < b_n; j++)
        {
            *(c + i * (b_n + 1) + j) = a[a_n - 1 - i] * b[j] / 10;
            *(p + i * (b_n + 1) + j + 1) = a[a_n - 1 - i] * b[j + 1 - 1] % 10;
        }
 
    for (i = 0; i < a_n; i++)
    {
        *(c + i * (b_n + 1) + b_n) = 0;
        *(p + i * (b_n + 1)) = 0;
    }
 
 
    int* P = (int*)malloc(a_n * (b_n + 1) * sizeof(int));
    for (i = 0; i < a_n; i++)
        for (j = 0; j <= b_n; j++)
        {
            *(P + i * (b_n + 1) + j) = *(c + i * (b_n + 1) + j) + *(p + i * (b_n + 1) + j);
        }
 
 
    ofstream out_c_real;       // объект для записи
    out_c_real.open("c_real.txt"); // любой текстовый файл в твоём проекте
 
    for (i = 0; i < a_n; i++)
    {
        for (j = 0; j <= b_n; j++)
            out_c_real << *(c + i * (b_n + 1) + j) << ' '; // записываем матрицу в поток
        out_c_real << '\n';
    }
 
    ofstream out_p_real;       // объект для записи
    out_p_real.open("p_real.txt"); // любой текстовый файл в твоём проекте
 
    for (i = 0; i < a_n; i++)
    {
        for (j = 0; j <= b_n; j++)
            out_p_real << *(p + i * (b_n + 1) + j) << ' '; // записываем матрицу в поток
        out_p_real << '\n';
    }
 
    ofstream out_P_real;       // объект для записи
    out_P_real.open("_P_real.txt"); // любой текстовый файл в твоём проекте
 
    for (i = 0; i < a_n; i++)
    {
        for (j = 0; j <= b_n; j++)
            out_P_real << *(P + i * (b_n + 1) + j) << ' '; // записываем матрицу в поток
        out_P_real << '\n';
    }
 
}
 
 
 
int main() {
 
    int n;
 
    n = 640;
    int* a = (int*)malloc(sizeof(int) * n);
    int* b = (int*)malloc(sizeof(int) * n);
    for (int i = 0; i < n; i++)
        a[i] = rand() % 13 - 6;
 
    n = 640;
    for (int i = 0; i <n; i++)
        b[i] = rand() % 13 - 6;
 
 
    sd_mul_real(a, b, n,n);
    sd_mul_par(a, b, n,n);
 
    printf("\n");
 
    return 0;
}

	13.05.2020, 18:12

Опции темы