Форум программистов, компьютерный форум CyberForum.ru

Загрузка процессора при поиске по регулярному выражению - C++

Восстановить пароль Регистрация
 
mh-coder
24 / 23 / 2
Регистрация: 01.02.2014
Сообщений: 717
05.08.2014, 17:42     Загрузка процессора при поиске по регулярному выражению #1
Смысл кода ниже, спарсить страницу и найти ссылки, юзаю regex, написал небольшую функцию для удобности его использования, в итоге когда происходит поиск по регулярному выражению в самой эттой функции мой 2ух ядерный проц загружается на 25% и я не могу понять, мой ли это косяк или это всётаки регулярки так долго ищут, мб хто чт подскажет.

C++ (Qt)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
//#include "Header.h"
#include "curl.h"
#include "dirent.h"
#pragma comment(lib,"curllib.lib")
#include <iostream>
#include <map>
#include <string>
#include <time.h>
#include <regex>
using namespace std;
 
 
class Array{
public:
 
    Array();
    ~Array();
 
    wstring & operator [] (const wstring&);
    wstring & operator [] (const int&);
    void unset(const wstring&);  // удалить
    int length(void);        // вернуть длину массива
    void unique(void);       // уникализировать массив
    bool in_array(const wstring&); // поиск значения в массиве
    void push(const wstring&,const wstring&); //взтавить ключ+значение (функция только для вставки, работает в 2 раза быстее чем [])
    void push(const int&,const wstring&); //взтавить ключ+значение (функция только для вставки, работает в 2 раза быстее чем [])
    void clear();
    void print(void){
        for( map < wstring, wstring, less<wstring> >::iterator i = my_map.begin( ); i !=my_map.end( ); ++i )
            wcout << ( *i ).first << ":" << ( *i ).second << endl;
    }
 
 
private:
 
    map < wstring, wstring, less<wstring> > my_map;
 
 
 
 
};
 
Array::Array(){
 
}
 
Array::~Array(){
    my_map.clear();
}
 
 
void Array::clear(){
    my_map.clear();
}
void Array::push(const wstring& _key,const wstring& _value){
    my_map.insert( map < wstring, wstring, less<wstring>>::value_type( _key, _value ) );
}
 
void Array::push(const int& _key,const wstring& _value){
    my_map.insert( map < wstring, wstring, less<wstring>>::value_type( to_wstring(_key), _value ) );
}
 
wstring & Array::operator [] (const wstring &_key){
 
    if(my_map.find( _key )!= my_map.end( )) {
        return my_map[_key];
    }else{
        my_map.insert( map < wstring, wstring, less<wstring>>::value_type( _key, L"" ) );
        return my_map[_key];
    }
 
}
wstring & Array::operator [] (const int &_key){
 
    if(my_map.find( to_wstring(_key) )!= my_map.end( )) {
        return my_map[to_wstring(_key)];
    }else{
        my_map.insert( map < wstring, wstring, less<wstring>>::value_type( to_wstring(_key), L"" ) );
        return my_map[to_wstring(_key)];
    }
 
}
 
void Array::unset(const wstring& _key){
    my_map.erase(_key);
}
 
int Array::length(){
    return my_map.size();
}
 
void Array::unique(){
 
    map <wstring, wstring, less<wstring> > time_map;
    for( map < wstring, wstring, less<wstring> >::iterator i = my_map.begin( ); i !=my_map.end( ); ++i )
    {
        time_map.insert( map <wstring, wstring, less<wstring>>::value_type( ( *i ).second, ( *i ).first ) );
    }
    my_map.clear();
    for( map < wstring, wstring, less<wstring> >::iterator i = time_map.begin( ); i !=time_map.end( ); ++i )
    {
        my_map.insert( map < wstring, wstring, less<wstring>>::value_type( ( *i ).first, ( *i ).second ) );
    }
    time_map.clear();
}
 
bool Array::in_array(const wstring& _value){
    bool result = false;
    for( map < wstring, wstring, less<wstring> >::iterator i = my_map.begin( ); i !=my_map.end( ); ++i )
    {
        if(( *i ).second == _value){
            result = true;
        }
    }
    return result;
}
 
void preg_match_all(char *_regular,const string &_text,Array &_result){
 
    smatch base_result;
    ssub_match base_sub_match;
    string result;
    wstring utf_str;
 
    char * temp;
    wchar_t * wtemp;
 
    string::const_iterator ib = _text.begin(), ie = _text.end();
 
    for(int i = 0; regex_search(ib, ie,base_result, regex(_regular,regex_constants::icase)); ib = base_result[0].second, i++)
    {
 
        for (size_t i2 = 0; i2 < base_result.size(); i2++) {
            result = base_result[i2];
            temp = (char*)result.c_str();
            wtemp = new wchar_t[result.length()+1];
            mbstowcs(wtemp,temp,result.length()+1);
            utf_str = wtemp;
            utf_str[result.length()]= '\0';
            delete[]wtemp;
            _result.push(i+i2,utf_str);
 
        }
        i+=base_result.size()-1;
    }
}
static int writer(char *data, size_t size, size_t nmemb, string *buffer)
{
    //переменная - результат, по умолчанию нулевая
    int result = 0;
    //проверяем буфер
    if (buffer != NULL)
    {
        //добавляем к буферу строки из data, в количестве nmemb
        buffer->append(data, size * nmemb);
        //вычисляем объем принятых данных
        result = size * nmemb;
    }
    //вовзращаем результат
    return result;
}
void main()  {
    map < wstring, int, less<wstring> > map_url;
    string result;
    while(true){
        Array result_url;
        setlocale(LC_ALL,".886");
        CURL *curl;
        CURLcode res;
 
 
        curl = curl_easy_init();
        if(curl) {
            curl_easy_setopt(curl, CURLOPT_URL, "http://www.cyberforum.ru");
            curl_easy_setopt(curl, CURLOPT_HEADER, 1);
            curl_easy_setopt(curl, CURLOPT_SSL_VERIFYPEER, 0);
            curl_easy_setopt(curl, CURLOPT_SSL_VERIFYHOST, 0);
 
            //указываем функцию обратного вызова для записи получаемых данных
            curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, writer);
            //указываем куда записывать принимаемые данные
            curl_easy_setopt(curl, CURLOPT_WRITEDATA, &result);
            res = curl_easy_perform(curl);
            curl_easy_cleanup(curl);
        }
 
 
 
 
        preg_match_all("<a(.*?)href(.*?)\"(.*?)\"(.*?)>",result,result_url);
 
        for (int i = 0,i2=0; i < result_url.length(); i++,i2++)
        {
            if(i2 == 3){
 
 
                map_url.insert( map < wstring, int,less<wstring>>::value_type( result_url[i] ,0) );
                i2 = -2;
            }
        }
        result_url.clear();
 
 
    }
 
}
Добавлено через 2 часа 54 минуты
я тут короче, потесли сам и пришолт к выводу что так проц грузит сама регулярка, но тут таке дело, я запустил денвер, на нём написал php скрипт с таким же регулярным выражением, он спарсил всё в 2 раза быстрее, и при этом не задействовал больше 5% проца, как так?
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
05.08.2014, 17:42     Загрузка процессора при поиске по регулярному выражению
Посмотрите здесь:

C++ Казус при поиске максимального элемента массива.
C++ Проблемы с классами при поиске обратной матрицы
Функция для поиска по регулярному выражению C++
C++ Порядок вершин при поиске кратчайшего пути
загрузка процессора по максимуму C++
C++ Нужна программа, которая по регулярному выражению находит все совпадения в строке
Ошибка при поиске значения структуры C++
C++ Переполнение буфера при поиске WNDDIR

Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
Tulosba
:)
Эксперт C++
4378 / 3221 / 297
Регистрация: 19.02.2013
Сообщений: 9,044
05.08.2014, 18:02     Загрузка процессора при поиске по регулярному выражению #2
mh-coder, я думаю, имеет смысл натравить профилировщик для нахождения узких мест в программе.

Добавлено через 3 минуты
P.S. Хотя уже отсюда видно, что динамическое выделение (136), освобождение (140) памяти не эффективно. Имеет смысл выделить статически буфер достаточного размера или использовать какой-то подобие std::vector, чтобы выделять память не на каждой итерации.
mh-coder
24 / 23 / 2
Регистрация: 01.02.2014
Сообщений: 717
05.08.2014, 19:33  [ТС]     Загрузка процессора при поиске по регулярному выражению #3
я тут короче, потестил сам(вытер всё и оставил только регулярку) и пришолт к выводу что так проц грузит сама регулярка, но тут таке дело, я запустил денвер, на нём написал php скрипт с таким же регулярным выражением, он спарсил всё в 2 раза быстрее, и при этом не задействовал больше 5% проца, как так?

Добавлено через 1 час 4 минуты
я тут подумал, мб rexeg плох и есть что-то получше?
Yandex
Объявления
05.08.2014, 19:33     Загрузка процессора при поиске по регулярному выражению
Ответ Создать тему
Опции темы

Текущее время: 22:01. Часовой пояс GMT +3.
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2016, vBulletin Solutions, Inc.
Рейтинг@Mail.ru