Форум программистов, компьютерный форум CyberForum.ru

С++ для начинающих

Войти
Регистрация
Восстановить пароль
 
crokodilka93
0 / 0 / 0
Регистрация: 02.10.2012
Сообщений: 16
#1

Парсинг html - Вывод всех ссылок с их текстовыми полями - C++

29.05.2014, 22:35. Просмотров 320. Ответов 8
Метки нет (Все метки)

Доброго времени суток, уважаемые форумчане!
Недавно встал вопрос о написании парсера для html. Задача парсинга: вывод всех ссылок с их текстовыми полями.
Как можно реализовать без спец. либов для парсинга?
Лучшие ответы (1)
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
29.05.2014, 22:35     Парсинг html - Вывод всех ссылок с их текстовыми полями
Посмотрите здесь:

C++ Вывод всех простых чисел.
C++ Парсинг HTML
Вывод всех n-значных чисел C++
Перебор и вывод всех возможных сочетаний C++
C++ Вывод в xml и html
Создать абстрактный класс с общими полями и методами. В производных классах перегрузить чисто виртуальную функцию - общая стоимость всех изделий C++
C++ Работа с текстовыми файлами: Вывод из текстового файла
После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
Max Dark
В поиске работы
1608 / 1409 / 504
Регистрация: 09.10.2013
Сообщений: 3,196
Записей в блоге: 8
Завершенные тесты: 2
29.05.2014, 23:59     Парсинг html - Вывод всех ссылок с их текстовыми полями #2
Сообщение было отмечено автором темы, экспертом или модератором как ответ
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
#include <iostream>
#include <istream>
#include <fstream>
#include <vector>
#include <string>
#include <cctype>
 
using namespace std;
 
struct link {
    std::string tag;
    std::string text;
};
typedef struct link link;
typedef std::vector < link > linkVector;
 
size_t parseLinks(istream &in, linkVector &links) {
    size_t count = 0;
    std::string line;
    link tmp;
 
    while(in) {
        getline(in, line,    '<');
        getline(in, tmp.tag, '>');
        if( 6   >= tmp.tag.length() ||
            '/' == tmp.tag[tmp.tag.length()-1])
            continue;
        if( 'a'    != tolower(tmp.tag[0]) ||
             false == isspace(tmp.tag[1]))
            continue;
        tmp.text = "";
        line = "";
        do {
            tmp.text += line;
            getline(in, line, '<');
            tmp.text += line;
            getline(in, line, '>');
        }
        while( 2 < line.length() ||
              '/' != line[0]);
        links.push_back(tmp);
        ++count;
    }
    return count;
}
int main() {
    return(0);
}
crokodilka93
0 / 0 / 0
Регистрация: 02.10.2012
Сообщений: 16
30.05.2014, 00:06  [ТС]     Парсинг html - Вывод всех ссылок с их текстовыми полями #3
Круто! Но, можно немного прокомментировать, если не затруднит?
Max Dark
В поиске работы
1608 / 1409 / 504
Регистрация: 09.10.2013
Сообщений: 3,196
Записей в блоге: 8
Завершенные тесты: 2
30.05.2014, 00:33     Парсинг html - Вывод всех ссылок с их текстовыми полями #4
Код
пока есть данные
    пропустить до начала тега
    считать внутренности
    если тег не подходит, в начало цикла
    считать текст до закрывающего тега
    добавить пару тег-текст в список
конец
crokodilka93
0 / 0 / 0
Регистрация: 02.10.2012
Сообщений: 16
30.05.2014, 00:41  [ТС]     Парсинг html - Вывод всех ссылок с их текстовыми полями #5
Это понятно, но а как загружать данные?

Добавлено через 4 минуты
Цитата Сообщение от Cra3y Посмотреть сообщение
Код
пока есть данные
    пропустить до начала тега
    считать внутренности
    если тег не подходит, в начало цикла
    считать текст до закрывающего тега
    добавить пару тег-текст в список
конец
Я имею ввиду, как мне загрузить саму страницу в код?
Max Dark
В поиске работы
1608 / 1409 / 504
Регистрация: 09.10.2013
Сообщений: 3,196
Записей в блоге: 8
Завершенные тесты: 2
30.05.2014, 00:51     Парсинг html - Вывод всех ссылок с их текстовыми полями #6
из файла например
C++
1
2
3
std::ifstream file("test.htm");
linkVector links;
size_t cnt = parse(file, links);
crokodilka93
0 / 0 / 0
Регистрация: 02.10.2012
Сообщений: 16
30.05.2014, 00:54  [ТС]     Парсинг html - Вывод всех ссылок с их текстовыми полями #7
А если обойтись без загрузки файла, а считывать прямиком по ссылке?
Извините, что туплю, просто я новичок и для меня это пока сверхъестественные вещи...
Max Dark
В поиске работы
1608 / 1409 / 504
Регистрация: 09.10.2013
Сообщений: 3,196
Записей в блоге: 8
Завершенные тесты: 2
30.05.2014, 01:01     Парсинг html - Вывод всех ссылок с их текстовыми полями #8
Тогда прочитайте как устроен интернет, HTTP IP/TCP и т.д.
потом можете почитать про boost::asio
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
30.05.2014, 07:07     Парсинг html - Вывод всех ссылок с их текстовыми полями
Еще ссылки по теме:

C++ Парсинг html
C++ Вывод всех членов структуры
Вывод двух параметров из функции с использованием ссылок C++
Работа с текстовыми файлами, внесение структуры в файл, вывод структур из файла в цикле(по одной) C++

Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
ninja2
230 / 186 / 7
Регистрация: 26.09.2012
Сообщений: 2,018
Завершенные тесты: 1
30.05.2014, 07:07     Парсинг html - Вывод всех ссылок с их текстовыми полями #9
Цитата Сообщение от crokodilka93 Посмотреть сообщение
А если обойтись без загрузки файла, а считывать прямиком по ссылке?
Извините, что туплю, просто я новичок и для меня это пока сверхъестественные вещи...
Можно curl использовать.
Yandex
Объявления
30.05.2014, 07:07     Парсинг html - Вывод всех ссылок с их текстовыми полями
Ответ Создать тему
Опции темы

Текущее время: 07:56. Часовой пояс GMT +3.
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2017, vBulletin Solutions, Inc.
Рейтинг@Mail.ru