5231 / 3204 / 362
Регистрация: 12.12.2009
Сообщений: 8,113
Записей в блоге: 2
1

Regex - получить все совпадения для группы

01.07.2015, 16:53. Показов 1524. Ответов 6

Author24 — интернет-сервис помощи студентам
Привет!

Хочу распарсить такой html, а точнее получить текст из ссылок
HTML5
1
2
3
4
5
6
<span>Unique text</span>
<a href="https://www.cyberforum.ru/boost-cpp/...">Text 1</a><br>
<a href="https://www.cyberforum.ru/boost-cpp/...">Text 2</a><br>
...
<a href="https://www.cyberforum.ru/boost-cpp/...">Text N-1</a><br>
<a href="https://www.cyberforum.ru/boost-cpp/...">Text N</a><br>
Переносы строк добавлены для читабельности, на самом деле их нет, но не суть. Количество N заранее неизвестно. Раньше с регулярками в С++ не работал (да и вообще с этим делом у меня опыт не большой, в Java иногда использую). Вот такое вот сочинил
C++
1
2
3
4
boost::smatch result;
boost::regex regex("<span>Unique text</span>(?:<a href=\"[^\"]*\">([^<]*)</a><br>){1,}");
boost::regex_search(html.cbegin(), html.cend(), result, regex);
// тут могу получить текст из первой ссылки в result[1], остальные не могу
На SO мой вопрос какой-то умник пометил дубликатом вот с этим, но имхо - там совсем другая ситуация.

Я верю, что есть способ решить мою проблему 1-2 строками кода, только я их не знаю) Может кто-то подскажет?

Добавлено через 2 минуты

Не по теме:

круто cyberforum в мои пустые href'ы своих ссылок написал )

0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
01.07.2015, 16:53
Ответы с готовыми решениями:

C++ std::regex каким образом можно вывести все совпадения?
Работаю в Visual Studio 2012. Каким образом я могу получить значения всех совпадений? Ищу так:...

Регулярные выражения: Как сохранить в группы все совпадения или где их смотреть?
как сохранить в группы все совпадения или где их смотреть? например string pattern =...

Получить все совпадения
Пытаюсь на js спарсить все совпадения на странице. &lt;a href=&quot;/user/НУЖНОЕМНЕСЛОВО_1&quot; title=&quot;ТУТ...

Получить все совпадения с карманами
Добрый вечер, есть строка $number = '100||||736||||150----031' Необходимо получить массив Array...

6
Эксперт С++
8385 / 6147 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
01.07.2015, 17:45 2
boost/regex Поиск ссылок в html-файле
0
5231 / 3204 / 362
Регистрация: 12.12.2009
Сообщений: 8,113
Записей в блоге: 2
01.07.2015, 17:58  [ТС] 3
Avazart, мне нужно не все ссылки, а только те, которые идут после <span>Unique text</span>. Я знаю, что просто все ссылки можно итератором перебрать, тут так не получается. Пока вижу вариант обрезать html'ку, но думаю есть нормальное решение.
0
Эксперт С++
8385 / 6147 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
01.07.2015, 18:12 4
Цитата Сообщение от Kastaneda Посмотреть сообщение
а только те, которые идут после <span>Unique text</span>.
Ну в регулярках же есть заглядывание в перед и назад.

Но, а вообще нормальное решение это html-парсер вместо регулярок.

Добавлено через 3 минуты
А вероятно понял в чем вопрос, попробуйте boost::match_extra http://habrahabr.ru/post/64226/
0
5231 / 3204 / 362
Регистрация: 12.12.2009
Сообщений: 8,113
Записей в блоге: 2
01.07.2015, 18:17  [ТС] 5
Цитата Сообщение от Avazart Посмотреть сообщение
Ну в регулярках же есть заглядывание в перед и назад.
Не понял. Я теорию про регулярки вообще не читал, чисто интуитивно как-то с ними работаю.
Цитата Сообщение от Avazart Посмотреть сообщение
Но, а вообще нормальное решение это html-парсер вместо регулярок.
Вот тут полностью согласен. В Java есть готовые, используют css селекты или xpath, приятно работать. А тут вот приходится огороды городить. Находил что-то на spirit'е, но там смотреть страшно). + заказчик хочет именно регулярки.

Добавлено через 2 минуты
Цитата Сообщение от Avazart Посмотреть сообщение
А вероятно понял в чем вопрос, попробуйте boost::match_extra http://habrahabr.ru/post/64226/
Очено похоже, что это оно. Сейчас чуть позже попробую.
0
Эксперт С++
8385 / 6147 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
01.07.2015, 18:23 6
Цитата Сообщение от Kastaneda Посмотреть сообщение
Вот тут полностью согласен. В Java есть готовые, используют css селекты или xpath, приятно работать. А тут вот приходится огороды городить. Находил что-то на spirit'е, но там смотреть страшно). + заказчик хочет именно регулярки.
libxml2 и обвертки под него. Кстати недавно под него обвертку ковыряли в разделе Qt.
В общем как обычно си как-то сильно сурово, а обвертки сыроватые.

Есть еще gumbo но тот тоже сишный.

Добавлено через 3 минуты
Цитата Сообщение от Kastaneda Посмотреть сообщение
Очено похоже, что это оно. Сейчас чуть позже попробую.
Обратите внимание на макрос BOOST_REGEX_MATCH_EXTRA
0
840 / 498 / 325
Регистрация: 29.12.2009
Сообщений: 1,106
12.08.2015, 15:01 7
Цитата Сообщение от Kastaneda Посмотреть сообщение
получить текст из ссылок
Знаю, что не вовремя, но пожалуй оставлю здесь свой вариант решения. Может пригодится вдруг
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
#include <iostream>
#include <string>
#include <boost/regex.hpp>
 
int main ()
{
    std::string text = "<span>Unique text</span>"
                       "<a href=\"link 1\">Text 1</a><br>"
                       "<a href=\"link 2\">Text 2</a><br>"
                       "<a href=\"link 3\">Text N-1</a><br>"
                       "<a href=\"link 4\">Text N</a><br>";
    //////////////////////////////////////////////////////////
    std::string pattern = "<span>Unique text</span><a href=\"(?<link>[^\"]*)\">[^<]*</a><br>";
    boost::smatch sresult;
    auto start = text.cbegin();
    auto end = text.cend();
    bool flag = true;
    while (boost::regex_search (start, end, sresult, boost::regex (pattern)))
    {
        std::cout << sresult["link"] << std::endl;
        start = sresult["link"].second;
        if (flag)
        {
            pattern = "<a href=\"(?<link>[^\"]*)\">[^<]*</a><br>";
            flag = false;
        }
    }
    return 0;
}
0
12.08.2015, 15:01
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
12.08.2015, 15:01
Помогаю со студенческими работами здесь

Найти совпадения в строках с помощью regex
Всем привет. Нужно найти совпадения в строках. Если rx присваиваю вручную, то работает. ...

Возможен ли $str =~ /некий-REGEX/ , возвращающий 'совпадения' ?
вопрос: возможен ли $str =~ /некий-REGEX/ , возвращающий 'совпадения' при условии: 1. $str...

Нужно получить все группы из Acl БД
Подскажите, пожалуйста, как получить все группы из ACL не текущей БД?

Получить все группы текущего пользователя в Active Directory
Надо использовать AD, чтобы получить группы текущего пользователя. Показать данные о...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru