|
75 / 26 / 2
Регистрация: 15.02.2012
Сообщений: 97
|
|
Парсинг html кода с использованием регулярных выражений (в частности boost.regex)24.07.2012, 17:18. Показов 8212. Ответов 20
Метки нет (Все метки)
Вечер добрый, уважаемые форумчане!
В общем то тема избитая, читал я по ней много, но из темы в тему - только какие то второстепенные вопросы и в основном касающиеся того, как отпарсить тот или иной тег, как отпарсить URL ссылки и т.д. но это не совсем то, что мне надо. Я в парсинге новичок и сравнительно недавно узнал, что делать это можно намного эффективнее и проще с помощью регулярных выражений (до этого изучал старые "добрые" грамматики и автоматы, тонны кода и запарки мозгов), но нигде не смог найти (либо на уставшую голову плохо искал) просто алгоритма построения парсера для html-кода. В моем случае будет дан код страницы с какой-либо статьёй, например с сайтов gazeta.ru или lenta.ru, т.е. есть заголовок <h*></h>, за ним текст статьи и кучку-куча-куча ненужных мне ссылок, менюшек, рекламы, фреймов и прочей лабуды вокруг. Надо вытащить этот самый текст статьи (даже можно оставить его с тегами форматирования внутри, главное сам текст статьи целиком). К сожалению по моим анализам таких кодов - само собой однотипной структуры оформления статей нету, а значит нужно что то более умное, чем поиск самого большого текста в тегах table или tr td. Вот прошу объяснить с нуля (насколько это возможно подробнее для новичка) как выглядит алгоритм построения парсера для решения подобного рода задач (ну или может быть даже для моей ). Ну и желательно какой-нибудь пример кода, а то без него будет тяжеловато самому разбираться. Заранее спасибо, рассчитываю на вашу помощь!) P.S.: Дело горит, завтра сдавать программу начальнику, так что режим изучения-интегрирования кода в мой проект должен быть уложен в день, был бы признателен, если так все и получилось бы) P.P.S.: я не прошу готового решения, если могло так показаться, просто прошу максимальной помощи в упрощении моей задачи) Добавлено через 22 минуты И да еще: парсинг осуществить надо средствами C++ и как я уже указал использовать регулярки из буста. Ну это не особо то важно откуда регулярки наверное, главное что на "плюсах", а то видал я и на PHP парсинг и много на чем видал) А вот в разделе по С++ не густо такого материала)
0
|
|
| 24.07.2012, 17:18 | |
|
Ответы с готовыми решениями:
20
Парсинг файла с использованием регулярных выражений Парсинг HTML с помощью регулярных выражений Парсинг логов с использованием регулярных выражений на Python и их упаковка в структуру данных словарь словарей |
|
75 / 26 / 2
Регистрация: 15.02.2012
Сообщений: 97
|
|
| 25.07.2012, 00:29 [ТС] | |
|
Спасибо большое за подробно изложенный материал и ссылки, буду изучать и пробывать. Пока что, так как поджимают сроки, то придется воспользоваться самым-самым простым способом, а потом думаю можно будет что нибудь придумать более серьезное)
0
|
|
| 25.07.2012, 00:29 | |
|
Помогаю со студенческими работами здесь
21
Поиск и удаление атрибутов в файле html с использованием регулярных выражений Получение цены из кода HTML с помощью регулярных выражений
Компиляция шаблонов регулярных выражений (regex)
Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Транскрипция 55-минутного видео через Whisper: WhisperDesktop облажался, спас Google Colab[
anaschu 01.06.2026
Понадобилось получить текст из свежезагруженного видео на YouTube. Казалось бы, задача на пять минут. Заняла полтора часа. Делюсь опытом — может кому пригодится последовательность решений.
. . .
|
21 мат мед. Планы на развитие модели здравоСохранения
anaschu 01.06.2026
AnyLogic: план развития симуляционной модели рабочего коллектива — динамический абсентеизм, реальные данные, три сценария сравнения
Продолжаю серию постов о дискретно-событийной модели рабочего. . .
|
20. Мат мед. Абсентеизм как отдельный тип простоя
anaschu 29.05.2026
Апдейт модели: исправленные баги, абсентеизм и новые механизмы
Продолжаю развивать ранее описанную модель рабочего коллектива на AnyLogic. За последние несколько дней был проведён серьёзный. . .
|
19. здоровье, усталость и психотип работника влияют на производительность предприятия, и наоборот, производительность на здоровье, усталось и психотип
anaschu 28.05.2026
Дискретно-событийная модель рабочего коллектива на AnyLogic: здоровье, выгорание, психотипы и микростимуляция
Привет, коллеги. Хочу поделиться итогами нескольких недель работы над симуляционной. . .
|
|
"Прокси" для последовательного порта
Eddy_Em 28.05.2026
Эту штуку написал я достаточно давно. Но сейчас вот понадобилось настроить датчик грозы, но при этом не отключать его от "метеодемона". Соответственно, надо запустить этот "прокси": метеодемон будет. . .
|
Рефакторинг программы уравнивания.
Massaraksh7 26.05.2026
Пример по предыдущей записи в блоге. Но, надо заметить, что, во-первых, там оптимизация не только математики, но и работы с базой данных, и с графами, а во-вторых, это ещё не всё.
|
Использование TThread в Lazarus для математических вычислений.
Massaraksh7 25.05.2026
Производя рефакторинг своих программ на предмет ускорения их работы, обратил внимание на такой аспект, как сокращение времени матвычислений. Дело в том, что приходится работать с большими матрицами. . .
|
Модель здравосохранения 18. Чем здоровее работник, тем быстрее выгорает
anaschu 24.05.2026
Имитационная модель корпоративного здравоохранения: что показывает математика
Сегодня в модели рабочего коллектива на AnyLogic появились три новые механики — выгорание через накопленную усталость,. . .
|