Форум программистов, компьютерный форум, киберфорум
Boost C++
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/8: Рейтинг темы: голосов - 8, средняя оценка - 4.75
 Аватар для Kastaneda
5232 / 3205 / 362
Регистрация: 12.12.2009
Сообщений: 8,143
Записей в блоге: 2

Regex - получить все совпадения для группы

01.07.2015, 16:53. Показов 1724. Ответов 6

Студворк — интернет-сервис помощи студентам
Привет!

Хочу распарсить такой html, а точнее получить текст из ссылок
HTML5
1
2
3
4
5
6
<span>Unique text</span>
<a href="https://www.cyberforum.ru/boost-cpp/...">Text 1</a><br>
<a href="https://www.cyberforum.ru/boost-cpp/...">Text 2</a><br>
...
<a href="https://www.cyberforum.ru/boost-cpp/...">Text N-1</a><br>
<a href="https://www.cyberforum.ru/boost-cpp/...">Text N</a><br>
Переносы строк добавлены для читабельности, на самом деле их нет, но не суть. Количество N заранее неизвестно. Раньше с регулярками в С++ не работал (да и вообще с этим делом у меня опыт не большой, в Java иногда использую). Вот такое вот сочинил
C++
1
2
3
4
boost::smatch result;
boost::regex regex("<span>Unique text</span>(?:<a href=\"[^\"]*\">([^<]*)</a><br>){1,}");
boost::regex_search(html.cbegin(), html.cend(), result, regex);
// тут могу получить текст из первой ссылки в result[1], остальные не могу
На SO мой вопрос какой-то умник пометил дубликатом вот с этим, но имхо - там совсем другая ситуация.

Я верю, что есть способ решить мою проблему 1-2 строками кода, только я их не знаю) Может кто-то подскажет?

Добавлено через 2 минуты

Не по теме:

круто cyberforum в мои пустые href'ы своих ссылок написал )

0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
01.07.2015, 16:53
Ответы с готовыми решениями:

C++ std::regex каким образом можно вывести все совпадения?
Работаю в Visual Studio 2012. Каким образом я могу получить значения всех совпадений? Ищу так: std::string input; std::regex...

Регулярные выражения: Как сохранить в группы все совпадения или где их смотреть?
как сохранить в группы все совпадения или где их смотреть? например string pattern = @&quot;((\S+)(\s+))*&quot; string str =...

Получить все совпадения
Пытаюсь на js спарсить все совпадения на странице. &lt;a href=&quot;/user/НУЖНОЕМНЕСЛОВО_1&quot; title=&quot;ТУТ КАЖДЫЙ РАЗ НОВОЕ...

6
Эксперт С++
 Аватар для Avazart
8484 / 6151 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
01.07.2015, 17:45
boost/regex Поиск ссылок в html-файле
0
 Аватар для Kastaneda
5232 / 3205 / 362
Регистрация: 12.12.2009
Сообщений: 8,143
Записей в блоге: 2
01.07.2015, 17:58  [ТС]
Avazart, мне нужно не все ссылки, а только те, которые идут после <span>Unique text</span>. Я знаю, что просто все ссылки можно итератором перебрать, тут так не получается. Пока вижу вариант обрезать html'ку, но думаю есть нормальное решение.
0
Эксперт С++
 Аватар для Avazart
8484 / 6151 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
01.07.2015, 18:12
Цитата Сообщение от Kastaneda Посмотреть сообщение
а только те, которые идут после <span>Unique text</span>.
Ну в регулярках же есть заглядывание в перед и назад.

Но, а вообще нормальное решение это html-парсер вместо регулярок.

Добавлено через 3 минуты
А вероятно понял в чем вопрос, попробуйте boost::match_extra http://habrahabr.ru/post/64226/
0
 Аватар для Kastaneda
5232 / 3205 / 362
Регистрация: 12.12.2009
Сообщений: 8,143
Записей в блоге: 2
01.07.2015, 18:17  [ТС]
Цитата Сообщение от Avazart Посмотреть сообщение
Ну в регулярках же есть заглядывание в перед и назад.
Не понял. Я теорию про регулярки вообще не читал, чисто интуитивно как-то с ними работаю.
Цитата Сообщение от Avazart Посмотреть сообщение
Но, а вообще нормальное решение это html-парсер вместо регулярок.
Вот тут полностью согласен. В Java есть готовые, используют css селекты или xpath, приятно работать. А тут вот приходится огороды городить. Находил что-то на spirit'е, но там смотреть страшно). + заказчик хочет именно регулярки.

Добавлено через 2 минуты
Цитата Сообщение от Avazart Посмотреть сообщение
А вероятно понял в чем вопрос, попробуйте boost::match_extra http://habrahabr.ru/post/64226/
Очено похоже, что это оно. Сейчас чуть позже попробую.
0
Эксперт С++
 Аватар для Avazart
8484 / 6151 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
01.07.2015, 18:23
Цитата Сообщение от Kastaneda Посмотреть сообщение
Вот тут полностью согласен. В Java есть готовые, используют css селекты или xpath, приятно работать. А тут вот приходится огороды городить. Находил что-то на spirit'е, но там смотреть страшно). + заказчик хочет именно регулярки.
libxml2 и обвертки под него. Кстати недавно под него обвертку ковыряли в разделе Qt.
В общем как обычно си как-то сильно сурово, а обвертки сыроватые.

Есть еще gumbo но тот тоже сишный.

Добавлено через 3 минуты
Цитата Сообщение от Kastaneda Посмотреть сообщение
Очено похоже, что это оно. Сейчас чуть позже попробую.
Обратите внимание на макрос BOOST_REGEX_MATCH_EXTRA
0
 Аватар для MicM
840 / 498 / 325
Регистрация: 29.12.2009
Сообщений: 1,106
12.08.2015, 15:01
Цитата Сообщение от Kastaneda Посмотреть сообщение
получить текст из ссылок
Знаю, что не вовремя, но пожалуй оставлю здесь свой вариант решения. Может пригодится вдруг
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
#include <iostream>
#include <string>
#include <boost/regex.hpp>
 
int main ()
{
    std::string text = "<span>Unique text</span>"
                       "<a href=\"link 1\">Text 1</a><br>"
                       "<a href=\"link 2\">Text 2</a><br>"
                       "<a href=\"link 3\">Text N-1</a><br>"
                       "<a href=\"link 4\">Text N</a><br>";
    //////////////////////////////////////////////////////////
    std::string pattern = "<span>Unique text</span><a href=\"(?<link>[^\"]*)\">[^<]*</a><br>";
    boost::smatch sresult;
    auto start = text.cbegin();
    auto end = text.cend();
    bool flag = true;
    while (boost::regex_search (start, end, sresult, boost::regex (pattern)))
    {
        std::cout << sresult["link"] << std::endl;
        start = sresult["link"].second;
        if (flag)
        {
            pattern = "<a href=\"(?<link>[^\"]*)\">[^<]*</a><br>";
            flag = false;
        }
    }
    return 0;
}
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
12.08.2015, 15:01
Помогаю со студенческими работами здесь

Получить все совпадения с карманами
Добрый вечер, есть строка $number = '100||||736||||150----031' Необходимо получить массив Array ( =&gt; Array ( ...

Найти совпадения в строках с помощью regex
Всем привет. Нужно найти совпадения в строках. Если rx присваиваю вручную, то работает. std::tr1::regex rx(&quot;Hell&quot;) ...

Возможен ли $str =~ /некий-REGEX/ , возвращающий 'совпадения' ?
вопрос: возможен ли $str =~ /некий-REGEX/ , возвращающий 'совпадения' при условии: 1. $str может быть одно- или многострочной...

Нужно получить все группы из Acl БД
Подскажите, пожалуйста, как получить все группы из ACL не текущей БД?

Получить все группы текущего пользователя в Active Directory
Надо использовать AD, чтобы получить группы текущего пользователя. Показать данные о пользователе private void FrSet_Load(Object...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip" Извлеките архив и вы увидите. . .
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д. Сборка примера Скачайте. . .
Использование SDL3-callbacks вместо функции main() на Android, Desktop и WebAssembly
8Observer8 24.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
моя боль
iceja 24.01.2026
Выложила интерполяцию кубическими сплайнами www. iceja. net REST сервисы временно не работают, только через Web. Написала за 56 рабочих часов этот сайт с нуля. При помощи perplexity. ai PRO , при. . .
Модель сукцессии микоризы
anaschu 24.01.2026
Решили писать научную статью с неким РОманом
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru