С Новым годом! Форум программистов, компьютерный форум, киберфорум
C/C++: IDE, инструментарий
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.88/8: Рейтинг темы: голосов - 8, средняя оценка - 4.88
1 / 1 / 1
Регистрация: 24.11.2016
Сообщений: 49

SSE (SSE42, SSE41, SSSE3, SSE3, SSE2, SSE1)

28.08.2017, 17:04. Показов 1633. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Подскажите фреймворк \ библиотеку которая будет на базе SSE (SSE42, SSE41, SSSE3, SSE3, SSE2, SSE1) проверять строку на равенство, а так же работать атрофическими операциями. А ля strcmp("StringA", "StringB") И SumAdd(20349, 54356)

Самый главный аспект, именно если процессор не поддерживает SSE42 и SSE41 то он бы использовать версию ниже
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
28.08.2017, 17:04
Ответы с готовыми решениями:

Какой программой можно преобразовать SSE в SSE2?
Люди помогите мне нужна прога или что небуть в этом роде что бы проц подерживал последниее игры они делаються на SSE2! У меня проц...

Вектора в sse3
Добрый день. Возникла следующая проблемма: нужна программа, которая будет перемножать вектора с помощью инструкции SSE3, но маи знания asm...

SSE2, выравнивание и new
Потихонечку пишу свою длинную арифметку. И вот на этапе оптимизации мне нужно использовать команды SSE2. Но многие из них требуют...

3
2625 / 1636 / 266
Регистрация: 19.02.2010
Сообщений: 4,348
29.08.2017, 00:32
У Агнера Фога agner.org посмотрите его библиотечку - там есть strcmp и stricmp.

Вот только в сырцах для strcmp заявляется реализация на/под 386 and SSE4.2 instruction sets. Может быть, даже 386ой вариант будет быстрее идущей в стандартной библиотеке Вашего компилятора - проверьте.
А для stricmp - SSE4.2 version not implemented because the gain is small. (т.е. её код "совместим" аж c 386)

Видимо, не все йогурты, т.е. новые наборы инструкций, полезны для повышения эффективности сравнения строк.
Вероятность, что Агнер пропустил какой-то из эффективных способов, мала - т.к. он является автором мануалов по оптимизации прог на ассемблере и на С/С++ (там же на сайте лежат), справочной информации по растактовкам команд кучи процессоров.
0
1 / 1 / 1
Регистрация: 24.11.2016
Сообщений: 49
29.08.2017, 04:43  [ТС]
Да, спасибо.. Это той тематики что я и спрашивал.. Только его код не производительнее чем люди на коленке пишут..

Вот этот asm

Кликните здесь для просмотра всего текста
Assembler
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
  push    ebx
  push    ebp
  xor     ecx, ecx
  cmp     eax, edx
  jz      @@exit
  inc     ecx
  test    eax, eax
  jz      @@exit
  test    edx, edx
  jz      @@exit
  mov     ecx, dword ptr [eax - 4]
  cmp     ecx, dword ptr [edx - 4]
  jnz     @@exit
  sub     edx, eax
  {$IFNDEF UNALIGNED}
  { test 2 unaligned characters }
  mov     ebx, [eax]
  xor     ebx, [eax + edx]
  jnz     @@exit
  lea     eax, [eax + 4]
  dec     ecx
  jz      @@exit
  dec     ecx
  jz      @@exit
  {$ENDIF}
  xor     ebx, ebx
  lea     ebx, [ebx - 8]
  test    ecx, ebx
  jz      @@l2c
  // -- 8x character loop
@@l8c:
  {$IFDEF UNALIGNED}
  movdqu  xmm0, dqword ptr [eax]
  movdqu  xmm1, dqword ptr [eax + edx]
  {$ELSE (ALIGNED)}
  movdqa  xmm0, dqword ptr [eax]
  {$ENDIF}
  {$IFNDEF SSE41}
  {$IFDEF UNALIGNED}
  pcmpeqd xmm0, xmm1
  {$ELSE (ALIGNED)}
  pcmpeqd xmm0, dqword ptr [eax + edx]
  {$ENDIF}
  pmovmskb ebp, xmm0
  sub     ebp, $FFFF
  {$ELSE (SSE2)}
  {$IFDEF UNALIGNED}
  pxor    xmm0, xmm1
  {$ELSE (ALIGNED)}
  pxor    xmm0, dqword ptr [eax + edx]
  {$ENDIF}
  ptest   xmm0, xmm0
  {$ENDIF}
  jnz     @@exit
  lea     eax, [eax + $10]
  lea     ecx, [ecx - $08]
  test    ecx, ebx
  jnz     @@l8c
  test    ecx, ecx
  jz      @@exit
  // -- 2x character loop
@@l2c:
  mov     ebx, dword ptr [eax]
  xor     ebx, dword ptr [eax + edx]
  jnz     @@exit
  lea     eax, [eax + 4]
  dec     ecx
  jz      @@exit
  dec     ecx
  jnz     @@l2c
  // -- set result and exit
@@exit:
  xor     eax, eax
  test    ecx, ecx
  setz    al
  pop     ebp
  pop     ebx


и тот что у него memcmpSSE2
Кликните здесь для просмотра всего текста
Delphi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
  push    esi
  push    edi
  mov     esi, A                    // ptr1
  mov     edi, B                 // ptr2
  mov     ecx, Len                   // size
  add     esi, ecx                         // use negative index from end of memory block
  add     edi, ecx
  neg     ecx
  jz      @@S900
  mov     edx, 0FFFFH
  cmp     ecx, -16
  ja      @@S200
 
@@S100:   // loop comparing 16 bytes
  movdqu  xmm1, [esi+ecx]
  movdqu  xmm2, [edi+ecx]
  pcmpeqb xmm1, xmm2                       // compare 16 bytes
  pmovmskb eax, xmm1                       // get byte mask
  xor     eax, edx                         // not ax
  jnz     @@S700                             // difference found
  add     ecx, 16
  jz      @@S900                             // finished, equal
  cmp     ecx, -16
  jna     @@S100                             // next 16 bytes
 
@@S200:   // less than 16 bytes left
  cmp     ecx, -8
  ja      @@S300
  // compare 8 bytes
  movq    xmm1, [esi+ecx]
  movq    xmm2, [edi+ecx]
  pcmpeqb xmm1, xmm2                       // compare 8 bytes
  pmovmskb eax, xmm1                       // get byte mask
  xor     eax, edx                         // not ax
  jnz     @@S700                             // difference found
  add     ecx, 8
  jz      @@S900
 
@@S300:   // less than 8 bytes left
  cmp     ecx, -4
  ja      @@S400
  // compare 4 bytes
  movd    xmm1, [esi+ecx]
  movd    xmm2, [edi+ecx]
  pcmpeqb xmm1, xmm2                       // compare 4 bytes
  pmovmskb eax, xmm1                       // get byte mask
  xor     eax, edx                         // not ax
  jnz     @@S700                             // difference found
  add     ecx, 4
  jz      @@S900
 
@@S400:   // less than 4 bytes left
  cmp     ecx, -2
  ja      @@S500
  movzx   eax, word [esi+ecx]
  movzx   edx, word [edi+ecx]
  sub     eax, edx
  jnz     @@S800                             // difference in byte 0 or 1
  add     ecx, 2
  jz      @@S900
 
@@S500:   // less than 2 bytes left
  test    ecx, ecx
  jz      @@S900                             // no bytes left
 
  // one byte left
  movzx   eax, byte [esi+ecx]
  movzx   edx, byte [edi+ecx]
  sub     eax, edx                         // return result
  pop     edi
  pop     esi
  JMP       @@exit
 
@@S700:   // difference found. find position
  bsf     eax, eax
  add     ecx, eax
  movzx   eax, byte [esi+ecx]
  movzx   edx, byte [edi+ecx]
  sub     eax, edx                         // return result
  pop     edi
  pop     esi
  JMP       @@exit
 
@@S800:   // difference in byte 0 or 1
  neg     al
  sbb     ecx, -1                          // add 1 to ecx if al == 0
@@S820:   movzx   eax, byte [esi+ecx]
  movzx   edx, byte [edi+ecx]
  sub     eax, edx                         // return result
  pop     edi
  pop     esi
  JMP       @@exit
 
@@S900:   // equal
  xor     eax, eax
  pop     edi
  pop     esi
@@exit:


Debug 32Bit
memcmpSSE2 Max: 1,456572 Min: 0,665633
TestSSE2 Max: 0,251890 Min: 0,219887
1,456572 | 0,227308) + 1,229264 >> TestSSE2
0,748693 | 0,228366) + 0,520327 >> TestSSE2
1,440724 | 0,239516) + 1,201208 >> TestSSE2
0,727608 | 0,239077) + 0,488531 >> TestSSE2
0,665633 | 0,251890) + 0,413743 >> TestSSE2
0,731848 | 0,219887) + 0,511961 >> TestSSE2
0,741570 | 0,229868) + 0,511702 >> TestSSE2
0,735388 | 0,228114) + 0,507274 >> TestSSE2
0,817917 | 0,238949) + 0,578968 >> TestSSE2
0,753952 | 0,243789) + 0,510163 >> TestSSE2


По производительности не канает... Есть ещё варианты ?

Добавлено через 1 минуту
У меня SSE42 и SSE41 не поддерживает проц, хочу заранее написать.
0
2625 / 1636 / 266
Регистрация: 19.02.2010
Сообщений: 4,348
31.08.2017, 16:59
Проверьте для разных длин строк.
А то если разница в первом же символе - то, очевидно, проиграет тот вариант, у которого просто длиннее пролог+эпилог (число push-pop используемых регистров в стек, иные подготовительные операции).

Т.е. постройте график скоростей для случаев, когда в среднем в десятом, в пятидесятом, сотом, пятисотом, тысячном символе возникает различие у строк. Ну или кратным числу байт в регистре заложите шаг (16-32-64-128-... для случая использования SSE).
Также проверьте случаи выравненности и невыравненности строк на границу параграфа.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
31.08.2017, 16:59
Помогаю со студенческими работами здесь

как не использовать SSE2 ?
т.к. у многих юзеров нет поддержки cvtss2sd из него, можно для них что-нить придумать?

SSE2 результат не сходиться
Привет, есть простая реализация алгоритма хеширования паролей MD5. После переноса на SSE2 во втором блоке первого раунда расчеты не верные...

Поддержка SSE2 в MASM32
Скачал последний пакет с http://www.masm32.com/. Но команды SSE2 не распознает пишет syntax error на всех командах. SSE1 работает...

Умножение матриц. SSE2
Есть 2 матрицы 1000х1000, элементами которых являются матрицы float 12х12. Как с помощью команд SSE2 перемножить матрицы и записать...

Поддерживает ли Builder 6.0 инструкции SSE2
Поддерживает ли 6.0 билдер инструкции SSE2? А то что-то ругается компилятор..


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
Изучаю kubernetes
lagorue 13.01.2026
А пригодятся-ли мне знания kubernetes в России?
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru