Парсер HTML01.01.2011, 09:47. Показов 21670. Ответов 35
Метки нет (Все метки)
Здравствуйте! Нигде не могу найти парсера HTML на Си/С++, помогите кто чем может!
На PHP все просто выходит в две строки, но надо именно на С++ для реализации многопоточности Например такая строка
На пхп все реализуется в две строки:
1
|
|||||||||||
| 01.01.2011, 09:47 | |
|
Ответы с готовыми решениями:
35
Вопрос про Парсер HTML с помощью Indy
HTML Парсер |
| 27.10.2012, 23:38 [ТС] | |||||||||||||
|
QVO, спасибо но это немного не то, постараюсь объяснить...
Задача состоит вот в чем. Начнем с простого. Есть вебстраница формата пример razbor1.htm
Необходимо привести к разобранному виду и занести в таблицу
0
|
|||||||||||||
|
|
|
| 27.10.2012, 23:52 | |
|
Есть еще такая либа https://www.cyberforum.ru/blog... og538.html.
Но я бы использовал boost/regex - как бы проще. ( если парсить не много ) boost/regex Поиск ссылок в html-файле
1
|
|
|
1452 / 360 / 61
Регистрация: 03.04.2010
Сообщений: 2,096
|
|
| 28.10.2012, 02:26 | |
|
Egeni, А как же regex.h? А boost? Или же поковыряйте библиотеку QT, там есть класс QRegExp. Под крайний случай подключите скриптовые языки (Python,Ruby,Lua), в них есть возможности для регулярных выражений. Думаю Вам будет быстрее понять основы языка Lua(А этого будет достаточно, для вашей цели. Да даже просто напишите скрипт, немного погуглив, и подключите его), чем искать нативное решение целый год, да и он пригодиться в жизни.
Советую почитать http://blog.alno.name/ru/2008/10/using-boost-regex , там есть альтернатива пхпешной функции preg_match, вот boost::regex_match. А если лень читать и много писать, то вот для Borland C++ (Delphi) http://regexpstudio.com/ru/TRegExpr/TRegExpr.html
1
|
|
|
|
|
| 28.10.2012, 12:53 | |
|
Вот тема о том, как прикручивать скрипты на Lua: https://www.cyberforum.ru/cpp-... 68085.html
Я бы такую задачу выполнял именно на Lua, но не на встроенных паровозах типа boost, Qt, regex. И вот почему. Формат страницы со временем может немного меняться и от тебя это никак не зависит (если я правильно понимаю). А потому время от времени может понадобиться вносить изменения в парсер. На одной чаше весов программа, для которой при изменении в парсере требуется перекомпиляция. Другими словами, если ты не хочешь никому отдавать исходник, то пользователи твоей программы уже ничего не смогут сделать, если что-то на сайте поменялось. На другой чаше весов программа, для которой НЕ требуется перекомпиляция, а требуется исправить скрипт на lua, который идёт в комплекте с программой. На крайний случай пользователь сам сможет поправить парсер, а потому для пользователя такой вариант выглядит более привлекательным
2
|
|
|
|
||
| 29.10.2012, 13:26 | ||
|
1
|
||
|
|
||
| 29.10.2012, 17:33 | ||
|
Когда мне требовалось сливать данные с сайта, то потребовалось залогиниться на сайт, получить адрес требуемой страницы и с неё уже выцеплять данные. В другом случае требовалось скачивать данные с "длинной" страницы, которая состоит из нескольких html-адресов (а не с одного адреса). В этом случае у меня на Lua был написан целый процесс обновления данный с сайта. Из Lua вызывался код по скачиванию страницы, который был написан на Си (ибо там менять ничего не надо).
1
|
||
|
|
||||||
| 29.10.2012, 17:38 | ||||||
|
Я имею ввиду нечто вроде
Со сложными регулярками наверное будет лучше lua. А собственно в самой LUA есть регулярные выражения или весь анализ вручную посимвольно?
1
|
||||||
|
|
|
| 03.02.2013, 02:14 | |
|
Новая тема тут https://www.cyberforum.ru/cpp-... 77781.html
0
|
|
| 03.02.2013, 02:14 | |
|
Помогаю со студенческими работами здесь
36
Html парсер на QT Парсер html Парсер HTML на C++ Html парсер Парсер html на c++ Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога
Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
|
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование
. \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json>
Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом.
# Check if. . .
|
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так:
https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347
Основана на STM32F303RBT6.
На борту пять. . .
|
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
|
|
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу,
и светлой Луне.
В мире
покоя нет
и люди
не могут жить в тишине.
А жить им немного лет.
|
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила»
«Время-Деньги»
«Деньги -Пуля»
|
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога
Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
|
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога
Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
|