Регулярные выражения или традиционные методы

@b00006 · Регистрация: 18.11.2013

Студворк — интернет-сервис помощи студентам

Допустим имеется строка:

C++
1
string content = "another word?name:Вася:end*anoher_word.name:Петя:end\\:'name:Кирилл:end";

Как можно вытащить из нее нужные мне участи, то есть Вася, Петя, Кирилл.

Использовать регулярные выражения или есть традиционные методы?

MrGluck · 17.02.2017, 13:41

То есть забрать содержимое между
name: и :end?
Можно, конечно, и стандартными методами, но регулярками это выглядит проще. Думаю, тут дело вкуса.

Добавлено через 8 минут
Стандартный способ:

C++
1
2
3
4
5
6
7
8
9
10
11
12
#include <iostream>
#include <string>
 
int main()
{
    setlocale(LC_ALL, "");
    const std::string content = "another word?name:Вася:end*anoher_word.name:Петя:end\\:'name:Кирилл:end", beg = "name:", end = ":end";
    for (size_t pos1 = content.find(beg), pos2 = content.find(end, pos1 + beg.length());
         pos1 != std::string::npos && pos2 != std::string::npos;
         pos1 = content.find(beg, pos2+end.length()), pos2 = content.find(end, pos1 + beg.length()))
        std::cout << content.substr(pos1 + beg.length(), pos2 - pos1 - beg.length()) << std::endl;
}

Добавлено через 2 минуты
На регулярках:

C++
1
2
3
4
5
6
7
8
9
10
11
12
#include <iostream>
#include <regex>
#include <string>
 
int main()
{
    setlocale(LC_ALL, "");
    const std::string content = "another word?name:Вася:end*anoher_word.name:Петя:end\\:'name:Кирилл:end";
    std::regex reg("name:(.*?):end");
    for (auto it = std::sregex_iterator(content.begin(), content.end(), reg); it != std::sregex_iterator(); ++it)
        std::cout << it->str(1) << std::endl;
}

@Renji · 17.02.2017, 13:49

Сообщение от b00006

Использовать регулярные выражения или есть традиционные методы?

С таким простым форматом строки, я бы советовал посмотреть в сторону sscanf (именно с двумя "s" в начале). Впрочем, это те же самые регулярки, только с более урезанным функционалом.

Но, вообще, у регулярок под капотом виртуальная машина, которая традиционные методы и крутит. Так что всегда можно скомпилировать выражение в уме и настучать от руки то самое, что в виртуальной машине. Код, конечно, будет быстрей, но длиннее.

@liv · 17.02.2017, 14:14

Еще вариант: На С с помощью токенов.
Имейте в виду, строка портится. Поэтому исходную строку надо скопировать в буфер.

C
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
#include <string.h>
#include <stdio.h>
 
char * content = "another word?name:Вася:end*anoher_word.name:Петя:end\\:'name:Кирилл:end";
 
int main()
{
    char* pStr;
    char* pSep = " ?:*.\'";
    char* pName = "name";
    char str[256];
 
    strcpy(str, content);
 
    pStr = strtok(str, pSep);
    while(pStr)
    {
        if (!strcmp(pStr, pName))
        {
            pStr = strtok(NULL, pSep);
            if (pStr)
                printf("name = %s\n", pStr);
            else
                break;
        }
        pStr = strtok(NULL, pSep);
    }
    return 0;
}

@Undisputed · 17.02.2017, 14:34

Вот еще один вариант на регулярках

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
#include<iostream>
#include<string>
#include<regex>
 
int main()
{
    std::string input = "another word?name:Вася:end*anoher_word.name:Петя:end\\:'name:Кирилл:end";
    std::regex r("name:(.*?):end");
    std::smatch sm;
 
    while(std::regex_search(input, sm, r))
    {
        std::cout << sm[1] << '\n';
        input = sm.suffix();
    }
}

Сообщение от b00006

Использовать регулярные выражения или есть традиционные методы?

Думаю с регулярками код чище и понятнее будет...

@Renji · 17.02.2017, 15:11

Сообщение от sys_beginner

C++
1
input = sm.suffix();

И на каждой итерации мы генерируем новую строку с этим самым суффиксом. За время пропорциональное размеру строки, то есть за время пропорциональное размеру еще не просмотренного регуляркой текста. Да здравствует квадратичная сложность алгоритма, помноженная на постоянные обращения к динамической памяти. Руки бы поотрывать тому, кто такие строчки на http://en.cppreference.com и http://www.cplusplus.com добавлял.
А использовать в таких циклах надо std::regex_iterator.

@Undisputed · 17.02.2017, 15:15

Renji,
Учту, спасибо

MrGluck · 17.02.2017, 15:17

Сообщение от Renji

Руки бы поотрывать тому, кто такие строчки на http://en.cppreference.com и http://www.cplusplus.com добавлял.

Да, тоже сильно удивился когда увидел это в примерах.

@Undisputed · 17.02.2017, 15:26

Но выглядит компактно

Добавлено через 37 секунд
Тобишь как я понял с итераторами match-инг будет всего 1 раз
И новые строки в цикле не нужны

@Renji · 17.02.2017, 15:34

Сообщение от sys_beginner

Тобишь как я понял с итераторами match-инг будет всего 1 раз

Э... Вы откуда match-инг один раз взяли?

C++
1
2
3
4
5
6
7
8
int main()
{
    const char str[]="another word?name:Вася:end*anoher_word.name:Петя:end\\:'name:Кирилл:end";
    std::regex regex("name:(.*?):end");
    for(std::cregex_iterator match(str,str+sizeof(str),regex); match!=std::cregex_iterator(); ++match)
        std::cout<<match->str(1)<<std::endl;
    return 0;
}

@Undisputed · 17.02.2017, 15:37

Сообщение от Renji

Э... Вы откуда match-инг один раз взяли?

Сообщение от Renji

C++
1
std::cregex_iterator match(str,str+sizeof(str),regex);

Тут под капотом разве не 1 раз матчинг будет? Первая часть цикла ж один раз выполнится
Далее как я понимаю создается итератор с набором найденных вхождений
И соответственно проходим по этому набору
Т.е поиск на совпадения происходит 1 раз, не?

MrGluck · 17.02.2017, 15:44

Сообщение от sys_beginner

Тобишь как я понял с итераторами match-инг будет всего 1 раз
И новые строки в цикле не нужны

regex_iterator проходят по последовательности, чем-то похоже на istream_iterator.

@Renji · 17.02.2017, 15:45

Сообщение от sys_beginner

Тут под капотом разве не 1 раз матчинг будет?

Нет, конечно. Наиболее вероятная реализация будет такой:
1) Конструктор итератора сохраняет указатели на начало и конец строки.
2) Итератор делает поиск между началом и концом строки.
3) Итератор передвигает начало строки, на конец захваченного регуляркой текста.
4) Результаты идут на печать.
5) Начало и конец еще не совпадают? Го на пункт 2.

MrGluck · 17.02.2017, 15:45

Сообщение от sys_beginner

Т.е поиск на совпадения происходит 1 раз, не?

Поиск следующего совпадения происходит при инкременте итератора.

@vndtta · 17.02.2017, 15:46

На регулярках:

C++
1
2
3
4
5
6
7
8
9
10
11
12
#include <iostream>
#include <regex>
#include <string>
 
int main()
{
    setlocale(LC_ALL, "");
    const std::string content = "another word?name:Вася:end*anoher_word.name:Петя:end\\:'name:Кирилл:end";
    std::regex reg("name:(.*?):end");
    for (auto it = std::sregex_iterator(content.begin(), content.end(), reg); it != std::sregex_iterator(); ++it)
        std::cout << it->str(1) << std::endl;
}

предлагаю поменять regex на

C++
1
"name:([a-zA-zа-яА-Я-_]*?):end"

, чтобы обрабатывались строчки типа

C++
1
"name:aadfname:NAME:end"

и вообще вот https://regex101.com/r/Dzl93t/1

@Renji · 17.02.2017, 15:51

Сообщение от vndtta

предлагаю поменять regex на "name:([a-zA-zа-яА-Я-_]*?):end", чтобы обрабатывались строчки типа "name:aadfname:NAME:end"

Дык они и так обрабатываются. Работающие в цикле регулярки, дважды один и тот же текст не захватывают. Так что второе NAME как маркер начала текста восприниматься не должно.

@vndtta · 17.02.2017, 15:59

Сообщение от Renji

Дык они и так обрабатываются. Работающие в цикле регулярки, дважды один и тот же текст не захватывают. Так что второе NAME как маркер начала текста восприниматься не должно.

я имел ввиду, что нужно ограничить символы, которые могут попасться в имени - странновато немного, если в имени есть двоеточие
что будет если обрабатывать строку типа "name:name:name:NAME:end" ? результат будет "name:name:NAME" - по-моему это не совсем то, что хотелось бы увидеть

@Undisputed · 17.02.2017, 16:09

Сообщение от Renji

Нет, конечно. Наиболее вероятная реализация будет такой:

Понятно, спасибо

Добавлено через 2 минуты
Сейчас кстати читаю книжку по С++. Скоро дойду до главы с описанием <regex>. Подтяну этот вопрос

MrGluck · 17.02.2017, 16:22

Сообщение от vndtta

"name:([a-zA-zа-яА-Я-_]*?):end"

строка "name:obj:NAME:end"

У ТС вполне конкретный случай, про вложенность name не говорилось

Добавлено через 2 минуты
А если просто хотите исключить двоеточие, то достаточно регулярки "name:([^:]*?):end"

Добавлено через 3 минуты
Но решать проблему двоеточием - костыль.
Можно переписать регулярку вот так:

C++
1
".*name:(.*):end"

.* жадная реализация отожмёт всё что можно перед name:
Для надёжности можно явно указать что группировка должна быть ленивой

C++
1
".*name:(.*?):end"

@Renji · 17.02.2017, 16:31

Сообщение от MrGluck

.* жадная реализация отожмёт всё что можно перед name:

Поправка: жадная реализация отожмет все что можно перед самым последним name:. Так что если не хочется двоеточий в соответствии - надо явно задавать необходимый чарсет.

Новые блоги и статьи Все статьи Все блоги /
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка. Programma_Boinc 23.12.2025 Рецензия / Мнение/ Перевод Ниже машинный перевод статьи The Thinkpad X220 Tablet is the best budget school laptop period . Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы,. . .	PhpStorm 2025.3: WSL Terminal всегда стартует в ~ and_y87 14.12.2025 PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .	Как объединить две одинаковые БД Access с разными данными VikBal 11.12.2025 Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.	Новый ноутбук volvo 07.12.2025 Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro	Музыка, написанная Искусственным Интеллектом volvo 04.12.2025 Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python IndentationError 23.11.2025 Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .	Поиск "дружественных имён" СОМ портов Argus19 22.11.2025 Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .	Сколько Государство потратило денег на меня, обеспечивая инсулином. Programma_Boinc 20.11.2025 Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .	Ломающие изменения в C#.NStar Alpha Etyuhibosecyu 20.11.2025 Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .	Мысли в слух kumehtar 18.11.2025 Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .

Регулярные выражения или традиционные методы

Решение

Решение

@Undisputed 901 / 478 / 93 Регистрация: 10.06.2014 Сообщений: 2,700
	17.02.2017, 15:15
	Renji, Учту, спасибо 1

@Undisputed 901 / 478 / 93 Регистрация: 10.06.2014 Сообщений: 2,700
	17.02.2017, 15:26
	Но выглядит компактно Добавлено через 37 секунд Тобишь как я понял с итераторами match-инг будет всего 1 раз И новые строки в цикле не нужны 1