Адаптируйте код к сложению целочисленных матриц. Найдите наилучшую конфигурацию выполнения. Объясните.Заранее спасибо

@KristinaOsipova · Регистрация: 25.12.2020

Студворк — интернет-сервис помощи студентам

1. Адаптируйте код в листинге 2.7 к сложению целочисленных матриц. Найдите
наилучшую конфигурацию выполнения. Объясните результат.
2. В версии кода листинга 2.7 с ядром sumMatrixOnGPUMix создайте новое ядро,
позволяющее каждому потоку обрабатывать два элемента. Найдите наилучшую
конфигурацию выполнения. Объясните результат.

C
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
#include <stdlib.h>
#include "cuda_runtime.h"
#include <stddef.h>
#include <stdarg.h>
#include <stdint.h>
 
#include <stdio.h>
#include <stdint.h>
#include <math.h>
#include <cuBLAS.h>
#include <cuRAND.h>
#include <iostream>
 
#include <device_launch_parameters.h>
#define WIN32_LEAN_AND_MEAN
#include <Windows.h>
 
 
#define CHECK(call)                                                          \
{                                                                            \
    const cudaError_t error = call;                                          \
    if (error != cudaSuccess)                                                \
     {                                                                       \
     printf("Ошибка: %s:%d, ", __FILE__, __LINE__);                            \
     printf("код:%d, причина: %s\n", error, cudaGetErrorString(error));        \
     exit(-10*error);                                                        \
    }                                                                        \
}                                                                            \
 
typedef struct timeval {
    long tv_sec; long tv_usec;
} timeval;
 
int gettimeofday(struct timeval* tp, struct timezone* tzp)
{
    // Это магическое число - количество 100-наносекундных интервалов с 1 января 
    // 1601 (UTC) до 00:00:00 1 января 1970 
    static const uint64_t EPOCH = ((uint64_t)116444736000000000ULL);
 
    SYSTEMTIME system_time; 
    FILETIME file_time;
    uint64_t time;
 
    GetSystemTime(&system_time);
    SystemTimeToFileTime(&system_time, &file_time);
    time = ((uint64_t)file_time.dwLowDateTime);
    time += ((uint64_t)file_time.dwHighDateTime) << 32;
 
    tp->tv_sec = (long)((time - EPOCH) / 10000000L);
    tp->tv_usec = (long)(system_time.wMilliseconds * 1000); 
    return 0;
}
double cpuSecond() {
    struct timeval tp;
 gettimeofday(&tp, NULL);
    return ((double)tp.tv_sec + (double)tp.tv_usec * 1.e-6);
}
void initialData(float* ip, const int size)
{
    int i;
    for (i = 0; i < size; i++) 
    { 
        ip[i] = (float)(rand() & 0xFF) / 10.0f;
    }
    return;
}
void sumMatrixOnHost(float* A, float* B, float* C, const int nx, const int ny)
{
    float* ia = A;
    float* ib = B; 
    float* ic = C;
    for (int iy = 0; iy < ny; iy++) 
    {
        for (int ix = 0; ix < nx; ix++) 
        {
            ic[ix] = ia[ix] + ib[ix];
        }
        ia += nx;
        ib += nx;
        ic += nx;
    }
    return;
}
void checkResult(float* hostRef, float* gpuRef, const int N)
{
    double epsilon = 1.0E-8;
    bool match = 1;
    for (int i = 0; i < N; i++)
    { 
        if (abs(hostRef[i] - gpuRef[i]) > epsilon)
        { 
            match = 0;
            printf("host %f gpu %f\n", hostRef[i], gpuRef[i]);
            break;
        }
    }
    if (match) 
        printf("Arrays match.\n\n");
    else printf("Arrays do not match.\n\n");
}
 
// 2D сетка и 2D блок
__global__ void sumMatrixOnGPU2D(float* MatA, float* MatB, float* MatC, int nx, int ny)
{
    unsigned int ix = threadIdx.x + blockIdx.x * blockDim.x;
    unsigned int iy = threadIdx.y + blockIdx.y * blockDim.y;
    unsigned int idx = iy * nx + ix;
    if (ix < nx && iy < ny)
        MatC[idx] = MatA[idx] + MatB[idx];
}
int main(int argc, char** argv)
{
    printf("%s Starting...\n", argv[0]);
    
    // настраиваем устройство
     int dev = 0;
     cudaDeviceProp deviceProp;
     CHECK(cudaGetDeviceProperties(&deviceProp, dev));
     printf("Using Device %d: %s\n", dev, deviceProp.name);
     CHECK(cudaSetDevice(dev));
    
     // устанавливаем объём данных матрицы
     int nx = 1 << 14;
     int ny = 1 << 14;
 
    int nxy = nx * ny;
    int nBytes = nxy * sizeof(float);
    printf("Matrix size: nx %d ny %d\n", nx, ny);
    
    // выделяем память хоста
     float* h_A, * h_B, * hostRef, * gpuRef;
     h_A = (float*)malloc(nBytes);
     h_B = (float*)malloc(nBytes);
     hostRef = (float*)malloc(nBytes);
     gpuRef = (float*)malloc(nBytes);
    
     // инициализируем данные на стороне хоста 
     double iStart = cpuSecond();
     initialData(h_A, nxy);
     initialData(h_B, nxy);
     double iElaps = cpuSecond() - iStart;
     printf("Matrix initialization elapsed %f sec\n", iElaps);
 
     memset(hostRef, 0, nBytes);
     memset(gpuRef, 0, nBytes);
    
    // складываем матрицы на хосте для проверки результатов 
    iStart = cpuSecond();
    sumMatrixOnHost(h_A, h_B, hostRef, nx, ny);
    iElaps = cpuSecond() - iStart;
    printf("sumMatrixOnHost elapsed %f sec\n", iElaps);
 
    
    // выделяем глобальную память устройства
     float* d_MatA, * d_MatB, * d_MatC;
     CHECK(cudaMalloc((void**)&d_MatA, nBytes));
     CHECK(cudaMalloc((void**)&d_MatB, nBytes));
     CHECK(cudaMalloc((void**)&d_MatC, nBytes));
    
     // передаём данные с хоста на устройство
     CHECK(cudaMemcpy(d_MatA, h_A, nBytes, cudaMemcpyHostToDevice));
     CHECK(cudaMemcpy(d_MatB, h_B, nBytes, cudaMemcpyHostToDevice));
    
     // вызываем ядро на стороне хоста 
     int dimx = 32;
     int dimy = 32;
     dim3 block(dimx, dimy);
     dim3 grid((nx + block.x - 1) / block.x, (ny + block.y - 1) / block.y);
    iStart = cpuSecond();
    sumMatrixOnGPU2D <<<grid, block >>> (d_MatA, d_MatB, d_MatC, nx, ny);
    CHECK(cudaDeviceSynchronize());
    iElaps = cpuSecond() - iStart;
    printf("sumMatrixOnGPU2D <<<(%d, %d), (%d, %d) >>> elapsed %f sec\n", grid.x, grid.y, block.x, block.y, iElaps);
    
    // проверяем ошибку ядра
     CHECK(cudaGetLastError());
 
    // копируем результаты на хост
    CHECK(cudaMemcpy(gpuRef, d_MatC, nBytes, cudaMemcpyDeviceToHost));
    // проверяем результаты устройства
     checkResult(hostRef, gpuRef, nxy);
    // очищаем глобальную память устройства
     CHECK(cudaFree(d_MatA));
     CHECK(cudaFree(d_MatB));
     CHECK(cudaFree(d_MatC));
 
    // освобождаем память хоста
     free(h_A);
     free(h_B);
     free(hostRef);
     free(gpuRef);
 
    // сбрасываем устройство
     CHECK(cudaDeviceReset());
    return (0);
}

Новые блоги и статьи Все статьи Все блоги /
Модель микоризы: классовый агентный подход 3 anaschu 06.01.2026 aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114	Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ФедосеевПавел 06.01.2026 Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .	Модель микоризы: классовый агентный подход 2 anaschu 06.01.2026 репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .	Расчёт токов в цепи постоянного тока igorrr37 05.01.2026 / * Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её. Последовательность действий:. . .
Новый CodeBlocs. Версия 25.03 palva 04.01.2026 Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .	Модель микоризы: классовый агентный подход anaschu 02.01.2026 Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .	Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Programma_Boinc 28.12.2025 Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / ********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / ********/ gallery/ bKBkQFf Пост отсюда. . .	Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США. Programma_Boinc 26.12.2025 Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .