С Новым годом! Форум программистов, компьютерный форум, киберфорум
CUDA
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
0 / 0 / 0
Регистрация: 25.12.2020
Сообщений: 11

Адаптируйте код к сложению целочисленных матриц. Найдите наилучшую конфигурацию выполнения. Объясните.Заранее спасибо

19.01.2023, 22:48. Показов 1152. Ответов 0
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
1. Адаптируйте код в листинге 2.7 к сложению целочисленных матриц. Найдите
наилучшую конфигурацию выполнения. Объясните результат.
2. В версии кода листинга 2.7 с ядром sumMatrixOnGPUMix создайте новое ядро,
позволяющее каждому потоку обрабатывать два элемента. Найдите наилучшую
конфигурацию выполнения. Объясните результат.

C
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
#include <stdlib.h>
#include "cuda_runtime.h"
#include <stddef.h>
#include <stdarg.h>
#include <stdint.h>
 
#include <stdio.h>
#include <stdint.h>
#include <math.h>
#include <cuBLAS.h>
#include <cuRAND.h>
#include <iostream>
 
#include <device_launch_parameters.h>
#define WIN32_LEAN_AND_MEAN
#include <Windows.h>
 
 
#define CHECK(call)                                                          \
{                                                                            \
    const cudaError_t error = call;                                          \
    if (error != cudaSuccess)                                                \
     {                                                                       \
     printf("Ошибка: %s:%d, ", __FILE__, __LINE__);                            \
     printf("код:%d, причина: %s\n", error, cudaGetErrorString(error));        \
     exit(-10*error);                                                        \
    }                                                                        \
}                                                                            \
 
typedef struct timeval {
    long tv_sec; long tv_usec;
} timeval;
 
int gettimeofday(struct timeval* tp, struct timezone* tzp)
{
    // Это магическое число - количество 100-наносекундных интервалов с 1 января 
    // 1601 (UTC) до 00:00:00 1 января 1970 
    static const uint64_t EPOCH = ((uint64_t)116444736000000000ULL);
 
    SYSTEMTIME system_time; 
    FILETIME file_time;
    uint64_t time;
 
    GetSystemTime(&system_time);
    SystemTimeToFileTime(&system_time, &file_time);
    time = ((uint64_t)file_time.dwLowDateTime);
    time += ((uint64_t)file_time.dwHighDateTime) << 32;
 
    tp->tv_sec = (long)((time - EPOCH) / 10000000L);
    tp->tv_usec = (long)(system_time.wMilliseconds * 1000); 
    return 0;
}
double cpuSecond() {
    struct timeval tp;
 gettimeofday(&tp, NULL);
    return ((double)tp.tv_sec + (double)tp.tv_usec * 1.e-6);
}
void initialData(float* ip, const int size)
{
    int i;
    for (i = 0; i < size; i++) 
    { 
        ip[i] = (float)(rand() & 0xFF) / 10.0f;
    }
    return;
}
void sumMatrixOnHost(float* A, float* B, float* C, const int nx, const int ny)
{
    float* ia = A;
    float* ib = B; 
    float* ic = C;
    for (int iy = 0; iy < ny; iy++) 
    {
        for (int ix = 0; ix < nx; ix++) 
        {
            ic[ix] = ia[ix] + ib[ix];
        }
        ia += nx;
        ib += nx;
        ic += nx;
    }
    return;
}
void checkResult(float* hostRef, float* gpuRef, const int N)
{
    double epsilon = 1.0E-8;
    bool match = 1;
    for (int i = 0; i < N; i++)
    { 
        if (abs(hostRef[i] - gpuRef[i]) > epsilon)
        { 
            match = 0;
            printf("host %f gpu %f\n", hostRef[i], gpuRef[i]);
            break;
        }
    }
    if (match) 
        printf("Arrays match.\n\n");
    else printf("Arrays do not match.\n\n");
}
 
// 2D сетка и 2D блок
__global__ void sumMatrixOnGPU2D(float* MatA, float* MatB, float* MatC, int nx, int ny)
{
    unsigned int ix = threadIdx.x + blockIdx.x * blockDim.x;
    unsigned int iy = threadIdx.y + blockIdx.y * blockDim.y;
    unsigned int idx = iy * nx + ix;
    if (ix < nx && iy < ny)
        MatC[idx] = MatA[idx] + MatB[idx];
}
int main(int argc, char** argv)
{
    printf("%s Starting...\n", argv[0]);
    
    // настраиваем устройство
     int dev = 0;
     cudaDeviceProp deviceProp;
     CHECK(cudaGetDeviceProperties(&deviceProp, dev));
     printf("Using Device %d: %s\n", dev, deviceProp.name);
     CHECK(cudaSetDevice(dev));
    
     // устанавливаем объём данных матрицы
     int nx = 1 << 14;
     int ny = 1 << 14;
 
    int nxy = nx * ny;
    int nBytes = nxy * sizeof(float);
    printf("Matrix size: nx %d ny %d\n", nx, ny);
    
    // выделяем память хоста
     float* h_A, * h_B, * hostRef, * gpuRef;
     h_A = (float*)malloc(nBytes);
     h_B = (float*)malloc(nBytes);
     hostRef = (float*)malloc(nBytes);
     gpuRef = (float*)malloc(nBytes);
    
     // инициализируем данные на стороне хоста 
     double iStart = cpuSecond();
     initialData(h_A, nxy);
     initialData(h_B, nxy);
     double iElaps = cpuSecond() - iStart;
     printf("Matrix initialization elapsed %f sec\n", iElaps);
 
     memset(hostRef, 0, nBytes);
     memset(gpuRef, 0, nBytes);
    
    // складываем матрицы на хосте для проверки результатов 
    iStart = cpuSecond();
    sumMatrixOnHost(h_A, h_B, hostRef, nx, ny);
    iElaps = cpuSecond() - iStart;
    printf("sumMatrixOnHost elapsed %f sec\n", iElaps);
 
    
    // выделяем глобальную память устройства
     float* d_MatA, * d_MatB, * d_MatC;
     CHECK(cudaMalloc((void**)&d_MatA, nBytes));
     CHECK(cudaMalloc((void**)&d_MatB, nBytes));
     CHECK(cudaMalloc((void**)&d_MatC, nBytes));
    
     // передаём данные с хоста на устройство
     CHECK(cudaMemcpy(d_MatA, h_A, nBytes, cudaMemcpyHostToDevice));
     CHECK(cudaMemcpy(d_MatB, h_B, nBytes, cudaMemcpyHostToDevice));
    
     // вызываем ядро на стороне хоста 
     int dimx = 32;
     int dimy = 32;
     dim3 block(dimx, dimy);
     dim3 grid((nx + block.x - 1) / block.x, (ny + block.y - 1) / block.y);
    iStart = cpuSecond();
    sumMatrixOnGPU2D <<<grid, block >>> (d_MatA, d_MatB, d_MatC, nx, ny);
    CHECK(cudaDeviceSynchronize());
    iElaps = cpuSecond() - iStart;
    printf("sumMatrixOnGPU2D <<<(%d, %d), (%d, %d) >>> elapsed %f sec\n", grid.x, grid.y, block.x, block.y, iElaps);
    
    // проверяем ошибку ядра
     CHECK(cudaGetLastError());
 
    // копируем результаты на хост
    CHECK(cudaMemcpy(gpuRef, d_MatC, nBytes, cudaMemcpyDeviceToHost));
    // проверяем результаты устройства
     checkResult(hostRef, gpuRef, nxy);
    // очищаем глобальную память устройства
     CHECK(cudaFree(d_MatA));
     CHECK(cudaFree(d_MatB));
     CHECK(cudaFree(d_MatC));
 
    // освобождаем память хоста
     free(h_A);
     free(h_B);
     free(hostRef);
     free(gpuRef);
 
    // сбрасываем устройство
     CHECK(cudaDeviceReset());
    return (0);
}
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
19.01.2023, 22:48
Ответы с готовыми решениями:

Адаптируйте код к сложению целочисленных матриц. Найдите наилучшую конфигурацию выполнения. Объясните.Заранее спасибо
#include &lt;cuda_runtime.h&gt; #include &lt;stdio.h&gt; #define WIN32_LEAN_AND_MEAN #include &lt;Windows.h&gt; #include &lt;stdint.h&gt; #define...

Объясните текст, не догоняю суть. (Заранее спасибо!)
Если вам уже приходилось использовать языки программирования более низкого уровня, такие как C или C++, то вы уже знаете, что значительная...

Объясните что такое GNU. Спасибо заранее
Правильны ли мои предположения? GNU/Linux - это ОС с ПО которое имеет открытый исходный код. Исходя из этой ОС строятся...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
19.01.2023, 22:48
Помогаю со студенческими работами здесь

Народ объясните как сделать, заранее спасибо
Народ может кто помочь из-за болезни пропустил много лекции, а завтра зачет. Может кто объяснить как сделать, много чего пробовал, ничего...

Найдите произведение двух целочисленных матриц n*n В полученной матрице найдите минимальный элемент и замостите им сере
Найдите произведение двух целочисленных матриц n*n. В полученной матрице найдите минимальный элемент и замостите им середину новой матрицы...

Подробно объясните работу этого кода (Заранее спасибо)
class MyWindowClass(QtGui.QMainWindow, form_class): def __init__(self, parent=None): QtGui.QMainWindow.__init__(self,...

Пожалуйста, найдите неопределённый интеграл, методом замены переменной. Заранее спасибо)
Правила, 5.18. Запрещено размещать задания и решения в виде картинок и других файлов с их текстом. Задания набирать ручками. Один...

Дано натуральное число P. Найдите все делители числа P. Спасибо заранее
Дано натуральное число P. Найдите все делители числа P.


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её. Последовательность действий:. . .
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru