Форум программистов, компьютерный форум CyberForum.ru

С++ для начинающих

Войти
Регистрация
Восстановить пароль
 
Kintoha
0 / 0 / 0
Регистрация: 13.03.2013
Сообщений: 96
#1

Консольное приложение, которое парсит HTML страничку - C++

05.08.2014, 14:44. Просмотров 325. Ответов 5
Метки нет (Все метки)

Доброго времени суток!
Есть сайт с такой страницей:

HTML5
1
2
3
4
5
6
7
<html>
<head>
<title>MPAYKYAYRRALM</title>
</head>
<body>
</body>
</html>
Нужно написать простое консольное приложение, которое бы записывало в переменную значение тега <title>.

Буду очень благодарен за помощь.
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
05.08.2014, 14:44     Консольное приложение, которое парсит HTML страничку
Посмотрите здесь:

Консольное приложение, которое конвертирует зашифрованный текст - C++
написать программу на С++, чтобы она конвертировала в консоле зашифрованный текст.

Написать консольное приложение, которое позволяет рассчитывать длину гипотенузы по теореме Пифагора. - C++
Напишите листинг программы с комментариями. в С++ 6.0. Вот задание: &quot; Написать консольное приложение, которое позволяет рассчитывать длину...

Написать консольное приложение, которое позволяет рассчитывать длину гипотенузы по теореме Пифагора. - C++
Напишите листинг программы с комментариями. в С++. Вот задание: &quot; Написать консольное приложение, которое позволяет рассчитывать длину...

Консольное приложение на С++ - C++
Задание такое: 1. Розробити функцію, що повертає абсолютне значення частки від ділення першого Желательно вот по этому примеру: ...

Консольное приложение. sizeof; - C++
Здравствуйте, хочу создать программу &quot;ConsoleAppliction&quot;, которая будет выводить в консоли либо 4, либо 2. (Иными словами будет говорить о...

Задания на функции (Консольное приложение) - C++
1. Написать функцию, которая принимает число и возвращает: - true - если переданное число простое; - false - если переданное число не...

После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
igorrr37
1644 / 1272 / 133
Регистрация: 21.12.2010
Сообщений: 1,932
Записей в блоге: 7
05.08.2014, 15:37     Консольное приложение, которое парсит HTML страничку #2
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#include <iostream>
#include <string>
 
int main()
{
    std::string str("<html><head><title>TITLE</title></head><body></body></html>"), sres;
    std::string::size_type iend, ibeg = str.find("<title>");
    if(ibeg != std::string::size_type(-1))
    {
        iend = str.find("</title>", ibeg);
        sres.assign(str, ibeg + std::string("<title>").size(), iend - ibeg - std::string("<title>").size());
    }
    std::cout << sres << '\n';
    return 0;
}
krv
72 / 52 / 11
Регистрация: 10.07.2014
Сообщений: 328
05.08.2014, 15:40     Консольное приложение, которое парсит HTML страничку #3
igorrr37, у ТС-а сайт, а не строка же
Kintoha, чем пользуешься? Поищи по словам curl, idHTTP,synapse - смотря чем хочешь вытащить страничку из веба
SatanaXIII
Супер-модератор
Эксперт С++
5602 / 2636 / 242
Регистрация: 01.11.2011
Сообщений: 6,495
Завершенные тесты: 1
05.08.2014, 15:59     Консольное приложение, которое парсит HTML страничку #4
Парсер XML файлов
c++ парсер html страниц
Парсер HTML
Парсер HTLM
HTML компилятор на С++
Парсер HTML
Парсинг характеристик товара с Яндекс.Маркета
gazlan
3130 / 1905 / 285
Регистрация: 27.08.2010
Сообщений: 5,132
Записей в блоге: 1
05.08.2014, 16:18     Консольное приложение, которое парсит HTML страничку #5
Цитата Сообщение от Kintoha Посмотреть сообщение
в переменную значение тега <title>
Кусок кода из моего "FB2 renamer"

Кликните здесь для просмотра всего текста
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
#define BEGIN_OF_TITLE        "book-title>"
#define END_OF_TITLE          "<"
 
void ForEach(const char* const pszFileName)
{
   if (!MF.OpenReadOnly(pszFileName))
   {
      // Error !
      return;
   }
 
   BYTE*    pText  = MF.Buffer();
   DWORD    dwSize = MF.Size();
 
   int   iStart = BMH_ISearch(pText,dwSize,(BYTE*)BEGIN_OF_TITLE,sizeof(BEGIN_OF_TITLE) - 1);
 
   if (iStart == -1)
   {
      MF.Close();
      return;
   }
 
   iStart += sizeof(BEGIN_OF_TITLE) - 1;
 
   int   iStop = BMH_ISearch(pText + iStart,dwSize - iStart,(BYTE*)END_OF_TITLE,sizeof(END_OF_TITLE) - 1);
 
   char     pszTitle[MAX_PATH + 1];
 
   memset(pszTitle,0,sizeof(pszTitle));
 
   strncpy(pszTitle,(char*)(pText + iStart),iStop);
   pszTitle[iStop] = 0;    // Ensure ASCIIZ
 
   MF.Close();
 
   char     pszNewName[_MAX_PATH];
   char     pszDrive  [_MAX_DRIVE];
   char     pszDir    [_MAX_DIR];
   char     pszFName  [_MAX_FNAME];
   char     pszExt    [_MAX_EXT];
 
   _splitpath(pszFileName,pszDrive,pszDir,pszFName,pszExt);
   _makepath( pszNewName, pszDrive,pszDir,pszTitle,pszExt);
 
   rename(pszFileName,pszNewName);
}
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
05.08.2014, 16:37     Консольное приложение, которое парсит HTML страничку
Еще ссылки по теме:

консольное приложение ,проверьте ошибки - C++
Помогите плз, надо исправить ошибки

Помогите скомпилировать консольное приложение - C++
У меня есть программа из книги //Астрономия на персональном компьютере// (исходники на С++ http://modsys.narod.ru/Arhiv/PlanposCPP.zip и...

не запускается рабочее консольное приложение - C++
доброго всем. win 10 64. Перестали запускаться рабочие консольные приложения, скомпилированные давным-давно. При запуске exe-шника из...

Консольное приложение Qt. Ругается на 3-й, 4-й аргументы - C++
Добрый день. При запуске в Qt вылетает Disassembler, окошко назначение Segmentation fault Фрагмент кода int main(int argc, char...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
igorrr37
1644 / 1272 / 133
Регистрация: 21.12.2010
Сообщений: 1,932
Записей в блоге: 7
05.08.2014, 16:37     Консольное приложение, которое парсит HTML страничку #6
вот цельная прога, только редирект не поддерживает (надо вручную вписать новый адрес из файла out.txt)
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
#define WINVER 0x501
#include <iostream>
#include <fstream>
#include <ws2tcpip.h>
#include <winsock2.h>
#include <windows.h>
#include <string>
#include <iterator>
#pragma comment(lib, "ws2_32")
 
void Perror(const char*);
 
class HttpDownloader
{
public:
    void Download(std::string const& sUri, std::string const& sPathToSave = "out.txt") // содержимое страницы будет сохранено в файл с именем sPathToSave
    {
        sock = INVALID_SOCKET;
        addrinfo aiHint, *paiRes = nullptr, *pai = nullptr;
        ZeroMemory(&aiHint, sizeof(aiHint));
        aiHint.ai_socktype = SOCK_STREAM;
        aiHint.ai_family = AF_UNSPEC;
        int res;
        ParseUri(sUri);
        if(!(res = getaddrinfo(sUrl.c_str(), "80", &aiHint, &paiRes)))
        {
            pai = paiRes;
            do
            {
                sock = socket(pai->ai_family, pai->ai_socktype, pai->ai_protocol);
                if(INVALID_SOCKET == sock)
                    continue;
                if(connect(sock, pai->ai_addr, pai->ai_addrlen) != SOCKET_ERROR)
                    break;
                else if(SOCKET_ERROR == closesocket(sock)) Perror("closesocket");
            }
            while (pai = pai->ai_next);
            if(pai)
            {
                std::string sReq =
                    "GET " + sUrn + " HTTP/1.0\r\n"
                    "Host: " + sUrl + "\r\n"
                    "Connection: close\r\n\r\n";
                if(sReq.size() == send(sock, sReq.c_str(), sReq.size(), 0))
                {
                    std::ofstream ofs(sPathToSave.c_str());
                    if(ofs.is_open())
                    {
                        char buf[1024];
                        do
                        {
                            res = recv(sock, buf, sizeof(buf), 0);
                            switch(res)
                            {
                                case 0: std::cout << "Connection closed\n"; break;
                                case SOCKET_ERROR: Perror("recv"); break;
                                default:
                                {
                                    ofs.write(buf, res);
                                    break;
                                }
                            }
                        }
                        while(res > 0);
                    }
                    else std::cerr << "Unable to open file" << std::endl;
                    ofs.close();
                }
                else Perror("send");
            }
            else Perror("connect or socket");
            freeaddrinfo(paiRes);
        }
        else std::cerr << "getaddrinfo failed: " << res << std::endl;
        if(SOCKET_ERROR == closesocket(sock)) Perror("closesocket");
    }
private:
    void ParseUri(std::string sUri)
    {
        std::string sScheme("http://");
        std::string::size_type ind(0);
        if((ind = sUri.find(sScheme)) != std::string::npos)
        {
            sUri.erase(ind, sScheme.size());
        }
        if((ind = sUri.find('/')) != std::string::npos)
        {
            sUrl = sUri.substr(0, ind);
            sUrn = sUri.substr(ind, sUri.size() - ind);
        }
        else
        {
            sUrl = sUri;
            sUrn = "/";
        }
    }
    std::string sUrl, sUrn;
    SOCKET sock;
};
 
int main()
{
    SetConsoleOutputCP(1251);
    WSADATA wsad;
    if(!WSAStartup(0x0202, &wsad))
    {
        if(2 == LOBYTE(wsad.wVersion) && 2 == HIBYTE(wsad.wVersion))
        {
            HttpDownloader d;
            d.Download("http://www.wikipedia.org/");                       // адрес страницы в интернете
        }
        else std::cerr << "Needed library version not found" << std::endl;
        if(SOCKET_ERROR == WSACleanup()) Perror("WSACleanup");
    }
    else Perror("WSAStartup");
 
    std::ifstream ifs("out.txt");
    if(ifs.is_open())
    {
        std::string str((std::istreambuf_iterator<char>(ifs)), std::istreambuf_iterator<char>());
        std::string sres;
        std::string::size_type iend, ibeg = str.find("<title>");
        if(ibeg != std::string::size_type(-1))
        {
            iend = str.find("</title>", ibeg);
            sres.assign(str, ibeg + std::string("<title>").size(), iend - ibeg - std::string("<title>").size());
        }
        std::cout << sres << '\n';
        ifs.close();
    }
    else
        std::cerr << "Unable to open input file\n";
    return 0;
}
 
void Perror(const char* fName)
{
    std::cerr << fName << " failed: " << WSAGetLastError() << std::endl;
}
Yandex
Объявления
05.08.2014, 16:37     Консольное приложение, которое парсит HTML страничку
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2017, vBulletin Solutions, Inc.
Рейтинг@Mail.ru