Парсер HTML01.01.2011, 09:47. Показов 21556. Ответов 35
Метки нет (Все метки)
Здравствуйте! Нигде не могу найти парсера HTML на Си/С++, помогите кто чем может!
На PHP все просто выходит в две строки, но надо именно на С++ для реализации многопоточности Например такая строка
На пхп все реализуется в две строки:
1
|
|||||||||||
| 01.01.2011, 09:47 | |
|
Ответы с готовыми решениями:
35
Вопрос про Парсер HTML с помощью Indy
HTML Парсер |
| 27.10.2012, 23:38 [ТС] | |||||||||||||
|
QVO, спасибо но это немного не то, постараюсь объяснить...
Задача состоит вот в чем. Начнем с простого. Есть вебстраница формата пример razbor1.htm
Необходимо привести к разобранному виду и занести в таблицу
0
|
|||||||||||||
|
|
|
| 27.10.2012, 23:52 | |
|
Есть еще такая либа https://www.cyberforum.ru/blog... og538.html.
Но я бы использовал boost/regex - как бы проще. ( если парсить не много ) boost/regex Поиск ссылок в html-файле
1
|
|
|
1452 / 360 / 61
Регистрация: 03.04.2010
Сообщений: 2,096
|
|
| 28.10.2012, 02:26 | |
|
Egeni, А как же regex.h? А boost? Или же поковыряйте библиотеку QT, там есть класс QRegExp. Под крайний случай подключите скриптовые языки (Python,Ruby,Lua), в них есть возможности для регулярных выражений. Думаю Вам будет быстрее понять основы языка Lua(А этого будет достаточно, для вашей цели. Да даже просто напишите скрипт, немного погуглив, и подключите его), чем искать нативное решение целый год, да и он пригодиться в жизни.
Советую почитать http://blog.alno.name/ru/2008/10/using-boost-regex , там есть альтернатива пхпешной функции preg_match, вот boost::regex_match. А если лень читать и много писать, то вот для Borland C++ (Delphi) http://regexpstudio.com/ru/TRegExpr/TRegExpr.html
1
|
|
|
|
|
| 28.10.2012, 12:53 | |
|
Вот тема о том, как прикручивать скрипты на Lua: https://www.cyberforum.ru/cpp-... 68085.html
Я бы такую задачу выполнял именно на Lua, но не на встроенных паровозах типа boost, Qt, regex. И вот почему. Формат страницы со временем может немного меняться и от тебя это никак не зависит (если я правильно понимаю). А потому время от времени может понадобиться вносить изменения в парсер. На одной чаше весов программа, для которой при изменении в парсере требуется перекомпиляция. Другими словами, если ты не хочешь никому отдавать исходник, то пользователи твоей программы уже ничего не смогут сделать, если что-то на сайте поменялось. На другой чаше весов программа, для которой НЕ требуется перекомпиляция, а требуется исправить скрипт на lua, который идёт в комплекте с программой. На крайний случай пользователь сам сможет поправить парсер, а потому для пользователя такой вариант выглядит более привлекательным
2
|
|
|
|
||
| 29.10.2012, 13:26 | ||
|
1
|
||
|
|
||
| 29.10.2012, 17:33 | ||
|
Когда мне требовалось сливать данные с сайта, то потребовалось залогиниться на сайт, получить адрес требуемой страницы и с неё уже выцеплять данные. В другом случае требовалось скачивать данные с "длинной" страницы, которая состоит из нескольких html-адресов (а не с одного адреса). В этом случае у меня на Lua был написан целый процесс обновления данный с сайта. Из Lua вызывался код по скачиванию страницы, который был написан на Си (ибо там менять ничего не надо).
1
|
||
|
|
||||||
| 29.10.2012, 17:38 | ||||||
|
Я имею ввиду нечто вроде
Со сложными регулярками наверное будет лучше lua. А собственно в самой LUA есть регулярные выражения или весь анализ вручную посимвольно?
1
|
||||||
|
|
|
| 03.02.2013, 02:14 | |
|
Новая тема тут https://www.cyberforum.ru/cpp-... 77781.html
0
|
|
| 03.02.2013, 02:14 | |
|
Помогаю со студенческими работами здесь
36
Html парсер на QT Парсер html Парсер HTML на C++ Html парсер Парсер html на c++ Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
||||
|
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта
Симптом:
После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
|
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
|
Новый ноутбук
volvo 07.12.2025
Всем привет.
По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне:
Ryzen 5 7533HS
64 Gb DDR5
1Tb NVMe
16" Full HD Display
Win11 Pro
|
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
|
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
|
|
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов
На странице:
https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/
нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
|
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов.
. . .
|
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
|
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
|
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут.
В век Веб все очень привыкли к дизайну Single-Page-Application .
Быстренько разберем подход "на фреймах".
Мы делаем одну. . .
|