simd и умножение матриц

@Попа с ручкой · Регистрация: 01.09.2019

Студворк — интернет-сервис помощи студентам

Здравствуйте! помогите , пожалуйста, в объяснении действий, которые совершаются в программе. конкретные вопросы
1) ообъясните, пожалуйста, как можно проще, что такое simd инструкции и зачем они нужны
2) что конкрутно делает 8-11 строчка кода?
3) что делает 18-20 строчка кода?
4) 22-35 строчка
5) __m256 c_line = _mm256_setzero_ps(); __m256 tmp_line = _mm256_mul_ps(a_line, b_line); c_line = _mm256_add_ps(tmp_line, c_line); ч_mm_store_ps(&c[i][j], t4); то это за переменная?
для чего предназначена программа? 1. Сгенерировать 2 матрицы (A и B), размерностью 4096х4096, состоящие из произвольных чисел AVX, с плавающей точкой одинарной точности типа.
2. Вычислить произведение матриц с использованием SIMD-инструкций и с использованием скалярных вычислений.
где понять что сгенерирована матрица чисел такого типа?
ну и сама программа

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
#include <iostream>
#include <immintrin.h>
#include <chrono>
using namespace std;
 
const int M = 1024, N = 1024;
 
float scalar_mul(float** a, float** b, float** c);
float vector_mul(float** a, float** b, float** c);
float print_m(float** matrix);
float set_zero(float** matrix);
 
 
int main()
{
    setlocale(LC_ALL, "Russian");   
 
    float** a = new float* [M];
    float** b = new float* [M];
    float** c = new float* [M];
 
    for (int i = 0; i < M; i++) {
        a[i] = new float[N];
        b[i] = new float[N];
        c[i] = new float[N];
    }
 
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < N; j++) {
            a[i][j] = j;
            b[i][j] = j;
            c[i][j] = 0;
        }
    }
 
    printf("---Скалярное умножение матриц %dx%d---\n", M, N);
    auto start1 = chrono::high_resolution_clock::now();
    scalar_mul(a, b, c);
    auto end1 = chrono::high_resolution_clock::now();
    //print_m(c);
    chrono::duration<float> duration1 = end1 - start1;
    printf("Время выполнения: %f секунд\n\n", duration1.count());
 
    set_zero(c);
 
    printf("---Векторное умножение матриц %dx%d---\n", M, N);
    auto start2 = chrono::high_resolution_clock::now();
    vector_mul(a, b, c);
    auto end2 = chrono::high_resolution_clock::now();
    //print_m(c);
    chrono::duration<float> duration2 = end2 - start2;
    printf("Время выполнения: %f секунд\n\n", duration2.count());
 
    printf("Done!\n\n");
}
 
 
float scalar_mul(float** a, float** b, float** c) {
    /*  СКАЛЯРНОЕ УМНОЖЕНИЕ   */
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < N; j++) {
            for (int k = 0; k < M; k++) {
                c[i][j] = c[i][j] + a[i][k] * b[k][j];
            }
        }
    }
    return **c;
}
 
 
float vector_mul(float** a, float** b, float** c) {
    /*  ВЕКТОРНОЕ УМНОЖЕНИЕ   */
    //  транспонирование матрицы B
    float** bt = new float* [M];
 
    for (int i = 0; i < M; i++) {
        bt[i] = new float[N];
    }
 
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < N; j++) {
            bt[i][j] = b[j][i];
        }
    }
    //  умножение матриц
    __m256 c_line = _mm256_setzero_ps();
    int step = sizeof(c_line) / sizeof(a[0][0]);
 
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < N; j++) {
            __m256 c_line = _mm256_setzero_ps();
            for (int k = 0; k < N; k += step) {
 
                __m256 a_line = _mm256_load_ps(&a[i][k]);
 
                __m256 b_line = _mm256_load_ps(&bt[j][k]);
                __m256 tmp_line = _mm256_mul_ps(a_line, b_line);
                c_line = _mm256_add_ps(tmp_line, c_line);
            }
 
            __m256 t1 = _mm256_hadd_ps(c_line, c_line);
            __m256 t2 = _mm256_hadd_ps(t1, t1);
            __m128 t3 = _mm256_extractf128_ps(t2, 1);
            __m128 t4 = _mm_add_ss(_mm256_castps256_ps128(t2), t3);
 
            _mm_store_ps(&c[i][j], t4);
        }
    }
    return **c;
}
 
 
float print_m(float** matrix) {
    /*  ВЫВОД МАТРИЦЫ НА ЭКРАН   */
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < N; j++) {
           cout << matrix[i][j] << " ";
        }
        cout << endl;
    }
    cout << endl;
    return 0;
}
 
 
float set_zero(float** matrix) {
    for (int i = 0; i < M; i++) {
        for (int j = 0; j < N; j++) {
            matrix[i][j] = 0;
        }
    }
    return **matrix;
} 

@nmcf · 09.12.2021, 19:50

Не по теме:

Книжку пробовал читать?

@VTsaregorodtsev · 09.12.2021, 20:19

Сообщение от Попа с ручкой

размерностью 4096х4096

и

Сообщение от Попа с ручкой

const int M = 1024, N = 1024;

- не стыкуются. Тебя где-то жестоко накололи

@Попа с ручкой · 09.12.2021, 20:53 **[ТС]**

Пробовала

@nmcf · 09.12.2021, 21:20

Сообщение от Попа с ручкой

объясните, пожалуйста, как можно проще, что такое simd инструкции

Просто групповое выполнение вычислений.

@liv · 09.12.2021, 21:23

Или одновременная работа с несколькими данными

Новые блоги и статьи Все статьи Все блоги /
Access VikBal 11.12.2025 Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.	Новый ноутбук volvo 07.12.2025 Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro	Музыка, написанная Искусственным Интеллектом volvo 04.12.2025 Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .	От async/await к виртуальным потокам в Python IndentationError 23.11.2025 Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .	Поиск "дружественных имён" СОМ портов Argus19 22.11.2025 Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином. Programma_Boinc 20.11.2025 Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .	Ломающие изменения в C#.NStar Alpha Etyuhibosecyu 20.11.2025 Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .	Мысли в слух kumehtar 18.11.2025 Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .	Создание Single Page Application на фреймах krapotkin 16.11.2025 Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .	Фото: Daniel Greenwood kumehtar 13.11.2025

@nmcf
	09.12.2021, 19:50
	Не по теме: Книжку пробовал читать? 0

@Попа с ручкой 1 / 1 / 0 Регистрация: 01.09.2019 Сообщений: 121
	09.12.2021, 20:53 [ТС]
	Пробовала 0

@liv 5120 / 4573 / 855 Регистрация: 07.10.2015 Сообщений: 9,462
	09.12.2021, 21:23
	Или одновременная работа с несколькими данными 0