Форум программистов, компьютерный форум CyberForum.ru

С++ для начинающих

Войти
Регистрация
Восстановить пароль
 
crokodilka93
0 / 0 / 0
Регистрация: 02.10.2012
Сообщений: 16
#1

Парсинг html - Вывод всех ссылок с их текстовыми полями - C++

29.05.2014, 22:35. Просмотров 333. Ответов 8
Метки нет (Все метки)

Доброго времени суток, уважаемые форумчане!
Недавно встал вопрос о написании парсера для html. Задача парсинга: вывод всех ссылок с их текстовыми полями.
Как можно реализовать без спец. либов для парсинга?
Лучшие ответы (1)
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
29.05.2014, 22:35     Парсинг html - Вывод всех ссылок с их текстовыми полями
Посмотрите здесь:

Парсинг HTML - C++
Не подскажите, как можно пропарсить HTML файл на чистом C++. Правильность и адекватность файла гарантируется, теги только самые...

Парсинг html - C++
Здравствуйте, уважаемые форумчане! Я мало знаю на тему парсинга и вот мне нужно вытащить информацию с сайта http://www.igumo.ru/. Слева...

Вывод двух параметров из функции с использованием ссылок - C++
В программе необходимо ввести в функцию один параметр (х), а получить из неё три. Помогите пожалуйста правильно сделать. Заранее спасибо. ...

Создать абстрактный класс с общими полями и методами. В производных классах перегрузить чисто виртуальную функцию - общая стоимость всех изделий - C++
Помогите пожалуйста!!! Не могу правильно создать абстрактный класс! Создать абстрактный класс с общими полями и методами. В производных...

Вывод в xml и html - C++
Добрый день. Не подскажите как вывести данные xml и html? Лучше ,если есть, скинь ссылки на статьи ,в противном случае напишите...

Вывод всех простых чисел. - C++
Задали задачку. Вывести все простые числа от 1 до n Примерно сделал на паскале. До 100 все работает а дальше он не может ворочать...

После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
Max Dark
шКодер самоучка
1813 / 1614 / 588
Регистрация: 09.10.2013
Сообщений: 3,618
Записей в блоге: 6
Завершенные тесты: 2
29.05.2014, 23:59     Парсинг html - Вывод всех ссылок с их текстовыми полями #2
Сообщение было отмечено автором темы, экспертом или модератором как ответ
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
#include <iostream>
#include <istream>
#include <fstream>
#include <vector>
#include <string>
#include <cctype>
 
using namespace std;
 
struct link {
    std::string tag;
    std::string text;
};
typedef struct link link;
typedef std::vector < link > linkVector;
 
size_t parseLinks(istream &in, linkVector &links) {
    size_t count = 0;
    std::string line;
    link tmp;
 
    while(in) {
        getline(in, line,    '<');
        getline(in, tmp.tag, '>');
        if( 6   >= tmp.tag.length() ||
            '/' == tmp.tag[tmp.tag.length()-1])
            continue;
        if( 'a'    != tolower(tmp.tag[0]) ||
             false == isspace(tmp.tag[1]))
            continue;
        tmp.text = "";
        line = "";
        do {
            tmp.text += line;
            getline(in, line, '<');
            tmp.text += line;
            getline(in, line, '>');
        }
        while( 2 < line.length() ||
              '/' != line[0]);
        links.push_back(tmp);
        ++count;
    }
    return count;
}
int main() {
    return(0);
}
crokodilka93
0 / 0 / 0
Регистрация: 02.10.2012
Сообщений: 16
30.05.2014, 00:06  [ТС]     Парсинг html - Вывод всех ссылок с их текстовыми полями #3
Круто! Но, можно немного прокомментировать, если не затруднит?
Max Dark
шКодер самоучка
1813 / 1614 / 588
Регистрация: 09.10.2013
Сообщений: 3,618
Записей в блоге: 6
Завершенные тесты: 2
30.05.2014, 00:33     Парсинг html - Вывод всех ссылок с их текстовыми полями #4
Код
пока есть данные
    пропустить до начала тега
    считать внутренности
    если тег не подходит, в начало цикла
    считать текст до закрывающего тега
    добавить пару тег-текст в список
конец
crokodilka93
0 / 0 / 0
Регистрация: 02.10.2012
Сообщений: 16
30.05.2014, 00:41  [ТС]     Парсинг html - Вывод всех ссылок с их текстовыми полями #5
Это понятно, но а как загружать данные?

Добавлено через 4 минуты
Цитата Сообщение от Cra3y Посмотреть сообщение
Код
пока есть данные
    пропустить до начала тега
    считать внутренности
    если тег не подходит, в начало цикла
    считать текст до закрывающего тега
    добавить пару тег-текст в список
конец
Я имею ввиду, как мне загрузить саму страницу в код?
Max Dark
шКодер самоучка
1813 / 1614 / 588
Регистрация: 09.10.2013
Сообщений: 3,618
Записей в блоге: 6
Завершенные тесты: 2
30.05.2014, 00:51     Парсинг html - Вывод всех ссылок с их текстовыми полями #6
из файла например
C++
1
2
3
std::ifstream file("test.htm");
linkVector links;
size_t cnt = parse(file, links);
crokodilka93
0 / 0 / 0
Регистрация: 02.10.2012
Сообщений: 16
30.05.2014, 00:54  [ТС]     Парсинг html - Вывод всех ссылок с их текстовыми полями #7
А если обойтись без загрузки файла, а считывать прямиком по ссылке?
Извините, что туплю, просто я новичок и для меня это пока сверхъестественные вещи...
Max Dark
шКодер самоучка
1813 / 1614 / 588
Регистрация: 09.10.2013
Сообщений: 3,618
Записей в блоге: 6
Завершенные тесты: 2
30.05.2014, 01:01     Парсинг html - Вывод всех ссылок с их текстовыми полями #8
Тогда прочитайте как устроен интернет, HTTP IP/TCP и т.д.
потом можете почитать про boost::asio
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
30.05.2014, 07:07     Парсинг html - Вывод всех ссылок с их текстовыми полями
Еще ссылки по теме:

Вывод всех n-значных чисел - C++
Вывод всех Х значных (х&lt;=10) десятичных чисел, сумма цифр крирпых равна данному целому цислу P&lt;90. Число X и P вводится с клавиатуры.

Вывод всех членов структуры - C++
Как вывести все члены структуры с помощью цикла, автоматически? С массивом, например, можно так сделать: for (int i = 0, i &lt; n; i++) ...

Вывод всех элементов массива и их размер - C++
В пхп есть функция var_dump http://php.su/functions/?var_dump допустим есть массив a = 1 {1,2,3} 2 {4,5,6} эта функция...

Вывод всех символов слова, кроме первого - C++
Условие такое: Пользователь вводит с клавиатуры слово. Программа выводит символы этого слова на экран кроме первого. Пожалуйста помогите.


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
ninja2
230 / 186 / 7
Регистрация: 26.09.2012
Сообщений: 2,018
Завершенные тесты: 1
30.05.2014, 07:07     Парсинг html - Вывод всех ссылок с их текстовыми полями #9
Цитата Сообщение от crokodilka93 Посмотреть сообщение
А если обойтись без загрузки файла, а считывать прямиком по ссылке?
Извините, что туплю, просто я новичок и для меня это пока сверхъестественные вещи...
Можно curl использовать.
Yandex
Объявления
30.05.2014, 07:07     Парсинг html - Вывод всех ссылок с их текстовыми полями
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2017, vBulletin Solutions, Inc.
Рейтинг@Mail.ru