Форум программистов, компьютерный форум, киберфорум
Boost C++
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 4.80/41: Рейтинг темы: голосов - 41, средняя оценка - 4.80
 Аватар для cyberdiem
75 / 26 / 2
Регистрация: 15.02.2012
Сообщений: 97

Парсинг html кода с использованием регулярных выражений (в частности boost.regex)

24.07.2012, 17:18. Показов 7990. Ответов 20
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Вечер добрый, уважаемые форумчане!
В общем то тема избитая, читал я по ней много, но из темы в тему - только какие то второстепенные вопросы и в основном касающиеся того, как отпарсить тот или иной тег, как отпарсить URL ссылки и т.д. но это не совсем то, что мне надо. Я в парсинге новичок и сравнительно недавно узнал, что делать это можно намного эффективнее и проще с помощью регулярных выражений (до этого изучал старые "добрые" грамматики и автоматы, тонны кода и запарки мозгов), но нигде не смог найти (либо на уставшую голову плохо искал) просто алгоритма построения парсера для html-кода. В моем случае будет дан код страницы с какой-либо статьёй, например с сайтов gazeta.ru или lenta.ru, т.е. есть заголовок <h*></h>, за ним текст статьи и кучку-куча-куча ненужных мне ссылок, менюшек, рекламы, фреймов и прочей лабуды вокруг. Надо вытащить этот самый текст статьи (даже можно оставить его с тегами форматирования внутри, главное сам текст статьи целиком). К сожалению по моим анализам таких кодов - само собой однотипной структуры оформления статей нету, а значит нужно что то более умное, чем поиск самого большого текста в тегах table или tr td. Вот прошу объяснить с нуля (насколько это возможно подробнее для новичка) как выглядит алгоритм построения парсера для решения подобного рода задач (ну или может быть даже для моей). Ну и желательно какой-нибудь пример кода, а то без него будет тяжеловато самому разбираться.

Заранее спасибо, рассчитываю на вашу помощь!)

P.S.: Дело горит, завтра сдавать программу начальнику, так что режим изучения-интегрирования кода в мой проект должен быть уложен в день, был бы признателен, если так все и получилось бы)

P.P.S.: я не прошу готового решения, если могло так показаться, просто прошу максимальной помощи в упрощении моей задачи)

Добавлено через 22 минуты
И да еще: парсинг осуществить надо средствами C++ и как я уже указал использовать регулярки из буста. Ну это не особо то важно откуда регулярки наверное, главное что на "плюсах", а то видал я и на PHP парсинг и много на чем видал) А вот в разделе по С++ не густо такого материала)
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
24.07.2012, 17:18
Ответы с готовыми решениями:

Парсинг файла с использованием регулярных выражений
Доброго времени суток уважаемые форумчане! Есть такая тема: нужно выдернуть из определенного формата информацию. Формат файла следующий: ...

Парсинг HTML с помощью регулярных выражений
имеем строку(вернее табличку): &lt;table class=&quot;mesview&quot; &gt;&lt;tr&gt;&lt;td&gt;Тип сообщения&lt;/td&gt;&lt;td&gt;О стоимости чистых...

Парсинг логов с использованием регулярных выражений на Python и их упаковка в структуру данных словарь словарей
Требуется: Создать из последовательности логов словарь, где ключ - таймстемп, а value - другой словарь, в котором ключи - все группы,...

20
 Аватар для cyberdiem
75 / 26 / 2
Регистрация: 15.02.2012
Сообщений: 97
25.07.2012, 00:29  [ТС]
Студворк — интернет-сервис помощи студентам
Спасибо большое за подробно изложенный материал и ссылки, буду изучать и пробывать. Пока что, так как поджимают сроки, то придется воспользоваться самым-самым простым способом, а потом думаю можно будет что нибудь придумать более серьезное)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
25.07.2012, 00:29
Помогаю со студенческими работами здесь

Поиск и удаление атрибутов в файле html с использованием регулярных выражений
Дали вот такое задание: На вход программы подается произвольный html-файл, необходимо удалить все атрибуты у всех тегов, кроме заданных...

Получение цены из кода HTML с помощью регулярных выражений
&lt;td class=&quot;price&quot;&gt; 8800 руб. &lt;/td&gt; var UpdExp = new Regex(@&quot;(?&lt;=&lt;td class=&quot;&quot;price&quot;&quot;&gt;)+(?=&lt;/td&gt;)&quot;); как вытащить мне...

Как спарсить строку HTML кода с помощью регулярных выражений
Имеется вот такой HTML код: &lt;a class=&quot;number-figures float-left phone-float-none&quot; href=&quot;http://test1.ru/lol&quot;&gt;&lt;b...

Компиляция шаблонов регулярных выражений (regex)
#include&lt;regex&gt; using namespace std; int main() { const string Dbl_p=&quot;?((\\d+\\.?\\d*)|(\\.\\d+))(?\\d+)?&quot;; ...

Как происходит проверка регулярных выражений в Regex.IsMatch?
Не разберусь что-то никак. Вот простой пример: public bool IsCyrillic(string pattern) { Regex rgx =...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
21
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru