Форум программистов, компьютерный форум, киберфорум
С++ для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/4: Рейтинг темы: голосов - 4, средняя оценка - 5.00
0 / 0 / 0
Регистрация: 22.11.2023
Сообщений: 14

Суффиксный массив

01.05.2024, 22:07. Показов 1033. Ответов 5

Студворк — интернет-сервис помощи студентам
Здравствуй, форум! Я пытаюсь разобраться своими кривыми ручонками и микроскопическим мозгом со следующей задачей: подаётся на вход строка, которую раскладываем на суффиксы и сортируем в лексикографическом порядке, после чего мы выводим точки начала суффикса. Например, подав на вход стоку "ababb", мы должны вывести "1 3 5 2 4", то есть координаты начала суффиксов ababb, abb, b, babb, bb. Но у меня код, написанный криворуким программистом (мной) выводит "3 1 5 2 4". Почему? Ниже код:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
#include <iostream>
#include <algorithm>
#include <string>
#include <vector>
 
using namespace std;
 
void radix_sort(vector<pair<pair<int, int>, int>>& arr)
{
    for (int i : vector{2, 1}) {
        auto key = [&](const pair<pair<int, int>, int>& x) {
            return i == 1 ? x.first.first : x.first.second;
        };
        
        int maximium = 0;
        for (const auto& i : arr) {
            maximium = max(maximium, key(i));
        }
        
        vector<int> v(maximium + 1);
        for (const auto& i : arr) {
            v[key(i)]++;
        }
        
        vector<int> start(maximium + 1);
        for (int i = 1; i <= maximium; ++i) {
            start[i] = start[i - 1] + v[i - 1];
        }
        
        vector<pair<pair<int, int>, int>> new_arr(arr.size());
        for (const auto& i : arr) {
            new_arr[start[key(i)]]= i;
            start[(key(i))]++;
        }
        
        arr = new_arr;
    }
}
 
int main()
{
    string s;
    cin >> s;
    s += '$';
    
    int n = s.length();
    
    vector<pair<pair<int, int>, int>> suffix(n);
    
    for (int i = 0; i < n; ++i) {
        suffix[i] = {{s[i], s[i+1]}, i};
    }
    
    sort(suffix.begin(), suffix.end());
    
    vector<int> equiv(n);
    
    for (int i = 1; i < n; ++i) {
        auto [c_val, cs] = suffix[i];
        auto [p_val, ps] = suffix[i-1];
        equiv[cs] = equiv[ps] + (c_val > p_val);
    }
    
    for (int cmp_amt = 1; cmp_amt < n; cmp_amt *= 2) {
        for (auto& [val, s] : suffix) {
            val = {equiv[s], equiv[(s + cmp_amt) % n]};
        }
    }
    
    radix_sort(suffix);
    
    for (int i = 1; i < n; ++i) {
        auto [c_val, cs] = suffix[i];
        auto [p_val, ps] = suffix[i-1];
        equiv[cs] = equiv[ps] + (c_val > p_val);
    }
    
    for (int i = 1; i < n; ++i) {
        cout << suffix[i].second + 1 << " ";
    }
 
    return 0;
}
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
01.05.2024, 22:07
Ответы с готовыми решениями:

Суффиксный массив
Доброго времени суток! Помогите пожалуйста реализовать суффиксный алгоритм поиска подстроки в тексте. Заранее благодарен

Суффиксный массив
Нужно построить массив суффиксов для строчки S есть функция на алгебраическом языке, но она не работает процедура borderRigth(S) ...

Для заданной строки построить суффиксный массив
Для заданной строки построить суффиксный массив - т.е. отсортированный список суффиксов строки. Добавлено через 17 минут Вот...

5
Модератор
Эксперт С++
 Аватар для zss
13769 / 10962 / 6491
Регистрация: 18.12.2011
Сообщений: 29,236
02.05.2024, 06:59
Суффикс - это какая-то часть слова, расположенная после корня.
Как определить, где суффикс начинается и где кончается?
1
Вездепух
Эксперт CЭксперт С++
 Аватар для TheCalligrapher
12919 / 6787 / 1817
Регистрация: 18.10.2014
Сообщений: 17,169
02.05.2024, 07:38
Цитата Сообщение от RetykFlash Посмотреть сообщение
Но у меня код, написанный криворуким программистом (мной) выводит "3 1 5 2 4". Почему?
Так а какое отношение этот код имеет к постановке задачи вообще? Распишите по шагам, как вы решали поставленную задачу в коде. Что за алгоритм тут реализован? Зачем понадобилось писать radix_sort? Зачем понадобилось обновление массива equiv циклом в строке 72?
1
 Аватар для ram876
759 / 456 / 213
Регистрация: 19.12.2016
Сообщений: 1,815
02.05.2024, 09:40
Лучший ответ Сообщение было отмечено RetykFlash как решение

Решение

Нашел в нете https://github.com/B-O-O-P/itm... ный-массив
Убрал ненужный вывод:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
#include <iostream>
#include <vector>
#include <algorithm>
 
 
using namespace std;
 
const size_t alphabet = 256;
 
struct SuffixArray {
    explicit SuffixArray(const string& str) : s(str), permutation(str.size()) {
        s.push_back(1);
        size_t n = s.size();
 
        vector<int> classes(n), pm(n), count(max(n, alphabet));
 
        for (int i = 0; i < n; ++i) {
            count[s[i]]++;
        }
 
        for (int i = 1; i < alphabet; ++i) {
            count[i] += count[i - 1];
        }
 
        for (int i = 0; i < n; ++i) {
            pm[--count[s[i]]] = i;
        }
 
        classes[pm[0]] = 0;
        int numberCl = 1;
        for (int i = 1; i < n; i++) {
            if (s[pm[i]] != s[pm[i - 1]]) {
                numberCl++;
            }
            classes[pm[i]] = numberCl - 1;
        }
 
        vector<int> npm(n), nclasses(n);
        for (int j = 0; (1 << j) < n; ++j) {
            int len = 1 << j;
 
            for (int i = 0; i < n; ++i) {
                npm[i] = pm[i] - len;
                if (npm[i] < 0) {
                    npm[i] += n;
                }
            }
 
            fill(count.begin(), count.begin() + numberCl, 0);
            for (int i = 0; i < n; ++i) {
                count[classes[npm[i]]]++;
            }
 
            for (int i = 1; i < numberCl; ++i) {
                count[i] += count[i - 1];
            }
 
            for (int i = n - 1; i >= 0; i--) {
                pm[--count[classes[npm[i]]]] = npm[i];
            }
 
            nclasses[pm[0]] = 0;
            numberCl = 1;
            for (int i = 1; i < n; ++i) {
                pair<int, int> current = {classes[pm[i]], classes[(pm[i] + (1 << j)) % n]};
                pair<int, int> prev = {classes[pm[i - 1]], classes[(pm[i - 1] + (1 << j)) % n]};
                if (current != prev) {
                    numberCl++;
                }
                nclasses[pm[i]] = numberCl - 1;
            }
            classes.swap(nclasses);
        }
 
        for (int i = 0; i < n - 1; ++i) {
            permutation[i] = pm[i + 1];
        }
        s.pop_back();
    }
 
    void print() {
        for (int i : permutation) {
            cout << i + 1 << " ";
        }
        cout << "\n";
    }
 
    string s;
    vector<int> permutation;
};
 
 
int main() {
 
 
    string s;
    cin >> s;
 
    SuffixArray suffixArray(s);
 
    suffixArray.print();
 
    return 0;
}
Кажется я понял, суффиксы -это подстроки минус первый символ первой подстроки. Затем надо просто его отсортировать.
Вот мое решение:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
#include <iostream>
#include <string>
#include <vector>
#include <utility>
#include <algorithm>
void split(const std::string& str,
            std::vector<std::pair<std::string, int>>& suf)
{
    int i = 1;
    std::string temp = str;
    while(temp.size())
    {
        suf.push_back(std::pair<std::string, int>(temp, i++));
        temp.erase(0, 1);
    }
}
 
int main()
{
    std::string str;
    std::cin >> str;
    std::vector<std::pair<std::string, int>> suf;
    split(str, suf);
    std::sort(suf.begin(), suf.end(), [](std::pair<std::string, int>& A, std::pair<std::string, int>& B){return A.first < B.first;});
    for(auto& x: suf)
    {
        std::cout << x.second;
    } std::cout << '\n';
}
2
0 / 0 / 0
Регистрация: 22.11.2023
Сообщений: 14
02.05.2024, 18:43  [ТС]
Всем огромное спасибо за помощь, но я уже нашёл ошибку! Сортировка суффиксов массива должна проходить log(n) раз, но я сделал её лишь единожды, так как после
Цитата Сообщение от RetykFlash Посмотреть сообщение
for (int cmp_amt = 1; cmp_amt < n; cmp_amt *= 2
идёт не функция сортировки, а только объявление val. Вот такие пироги
Ниже представлено исправленное решение данной здадчи - может быть, гостьям из будущего пригодится:

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
#include <iostream>
#include <algorithm>
#include <string>
#include <vector>
 
using namespace std;
 
void radix_sort(vector<pair<pair<int, int>, int>>& arr)
{
for (int i : vector<int>{2, 1}) {
        auto key = [&](const pair<pair<int, int>, int>& x) {
        return i == 1 ? x.first.first : x.first.second;
        };
        
        int maximium = 0;
        for (const auto& i : arr) {
            maximium = max(maximium, key(i));
        }
        
        vector<int> v(maximium + 1);
        for (const auto& i : arr) {
            v[key(i)]++;
        }
        
        vector<int> start(maximium + 1);
        for (int i = 1; i <= maximium; ++i) {
            start[i] = start[i - 1] + v[i - 1];
        }
        
        vector<pair<pair<int, int>, int>> new_arr(arr.size());
        for (const auto& i : arr) {
            new_arr[start[key(i)]]= i;
            start[(key(i))]++;
        }
        
        arr = new_arr;
    }
}
 
int main()
{
    string s;
    cin >> s;
    s += '$';
    
    int n = s.length();
    
    vector<pair<pair<int, int>, int>> suffix(n);
    
    for (int i = 0; i < n; ++i) {
        suffix[i] = {{s[i], s[i+1]}, i};
    }
    
    sort(suffix.begin(), suffix.end());
    
    vector<int> equiv(n);
    
    for (int i = 1; i < n; ++i) {
        auto [c_val, cs] = suffix[i];
        auto [p_val, ps] = suffix[i-1];
        equiv[cs] = equiv[ps] + (c_val > p_val);
    }
    
    for (int cmp_amt = 1; cmp_amt < n; cmp_amt *= 2) {
        for (auto& [val, s] : suffix) {
            val = {equiv[s], equiv[(s + cmp_amt) % n]};
        }
    
    
    radix_sort(suffix);
    
    for (int i = 1; i < n; ++i) {
        auto [c_val, cs] = suffix[i];
        auto [p_val, ps] = suffix[i-1];
        equiv[cs] = equiv[ps] + (c_val > p_val);
    }
    }
    
    for (int i = 1; i < n; ++i) {
        cout << suffix[i].second + 1 << " ";
    }
 
    return 0;
}
ПЫСЫ: огромное спасибо всем добрым мудрецам форума, кто решил помочь мне! Вы очень сильно помогаете мне становиться лучше, даже если (судя по моим темам и колличеству благодарностей) этого не заметно. Просто представьте, скольким людям вы также помогаете совершенствоваться!


Цитата Сообщение от TheCalligrapher Посмотреть сообщение
Так а какое отношение этот код имеет к постановке задачи вообще? Распишите по шагам, как вы решали поставленную задачу в коде. Что за алгоритм тут реализован? Зачем понадобилось писать radix_sort? Зачем понадобилось обновление массива equiv циклом в строке 72?
Главная цель программы - разбить строку на суффиксы, после чего вывести их положение в суффиксальном массиве. Для решения данной задачи требуется пройти по строке, собрав максивальное колличество суффиксов, а затем из упорядочить в лексикографическом порядке, как показано в данной статье: https://ru.algorithmica.org/cs... fix-array/

Radix sort - один из самых быстрых алгоритмов сортировки, позволяющий сортировать значения по разрядам, а не по целым значению (как в пузырьковой сортировке). Из-за этого, даже довольно огромнный массив из 105 или даже 109 значений будет отсортирован за довольно короткое время. В конце концов, если асимпотика bubble sort O(n2), то у radix sort - O(n log(n)), значит вместо условыных 64 проходов при n = 8 у нас будет всего 24!
0
Супер-модератор
Эксперт функциональных языков программированияЭксперт Python
 Аватар для Catstail
38161 / 21096 / 4306
Регистрация: 12.02.2012
Сообщений: 34,680
Записей в блоге: 14
03.05.2024, 06:20
Суффиксный массив - это отсортированый массив всех суффиксов строки совместно со смещением каждого суффкса.

Возьмем строку ABRACADABRA и составим список всех ее суффиксов:

A
RA
BRA
ABRA
DABRA
ADABRA
CADABRA
ACADABRA
RACADABRA
BRACADABRA
ABRACADABRA

Теперь сортируем (совместно со смещениями в исходной строке):

Code
1
2
3
4
5
6
7
8
9
10
11
A           11
ABRA            8
ABRACADABRA     1
ACADABRA        4
ADABRA          6
BRA         9
BRACADABRA      2
CADABRA         5
DABRA           7
RA          10
RACADABRA       3
Вот эта пара и есть суффиксный массив.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
03.05.2024, 06:20
Помогаю со студенческими работами здесь

Для заданной строки построить суффиксный массив
Построить отсортированный список суффиксов. Вот решение для HomeLisp: (defun suff-arr (str) (LET ((res NIL)) (DOTIMES...

Суффиксный автомат
Доброго времени суток, уважаемые форумчане. Тут вот начал разбираться с такой структурой данных, как суффиксный автомат.Но понять особо...

Суффиксный автомат
Разбираюсь в теории, стало непонятно следующее: &quot;Тогда назовём множеством окончаний endpos(t) множество всех позиций в строке s, в которых...

суффиксный бор.Алгоритм Ахо-Корасик.
Приветствую господа! Решаю вот такую задачку : Формат входного файла : В первой строке входного файла записаны 2 целых числа n и k...

Вывести на печать массив X, массив Z, массив Y, произведение элементов массива X, упорядоченный массив Y
Вывести на печать массив X, массив Z, массив Y, произведение элементов массива X, упорядоченный массив Y. ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru