Форум программистов, компьютерный форум CyberForum.ru

С++ для начинающих

Войти
Регистрация
Восстановить пароль
 
mh-coder
24 / 23 / 3
Регистрация: 01.02.2014
Сообщений: 770
#1

Загрузка процессора при поиске по регулярному выражению - C++

05.08.2014, 17:42. Просмотров 349. Ответов 2
Метки нет (Все метки)

Смысл кода ниже, спарсить страницу и найти ссылки, юзаю regex, написал небольшую функцию для удобности его использования, в итоге когда происходит поиск по регулярному выражению в самой эттой функции мой 2ух ядерный проц загружается на 25% и я не могу понять, мой ли это косяк или это всётаки регулярки так долго ищут, мб хто чт подскажет.

C++ (Qt)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
//#include "Header.h"
#include "curl.h"
#include "dirent.h"
#pragma comment(lib,"curllib.lib")
#include <iostream>
#include <map>
#include <string>
#include <time.h>
#include <regex>
using namespace std;
 
 
class Array{
public:
 
    Array();
    ~Array();
 
    wstring & operator [] (const wstring&);
    wstring & operator [] (const int&);
    void unset(const wstring&);  // удалить
    int length(void);        // вернуть длину массива
    void unique(void);       // уникализировать массив
    bool in_array(const wstring&); // поиск значения в массиве
    void push(const wstring&,const wstring&); //взтавить ключ+значение (функция только для вставки, работает в 2 раза быстее чем [])
    void push(const int&,const wstring&); //взтавить ключ+значение (функция только для вставки, работает в 2 раза быстее чем [])
    void clear();
    void print(void){
        for( map < wstring, wstring, less<wstring> >::iterator i = my_map.begin( ); i !=my_map.end( ); ++i )
            wcout << ( *i ).first << ":" << ( *i ).second << endl;
    }
 
 
private:
 
    map < wstring, wstring, less<wstring> > my_map;
 
 
 
 
};
 
Array::Array(){
 
}
 
Array::~Array(){
    my_map.clear();
}
 
 
void Array::clear(){
    my_map.clear();
}
void Array::push(const wstring& _key,const wstring& _value){
    my_map.insert( map < wstring, wstring, less<wstring>>::value_type( _key, _value ) );
}
 
void Array::push(const int& _key,const wstring& _value){
    my_map.insert( map < wstring, wstring, less<wstring>>::value_type( to_wstring(_key), _value ) );
}
 
wstring & Array::operator [] (const wstring &_key){
 
    if(my_map.find( _key )!= my_map.end( )) {
        return my_map[_key];
    }else{
        my_map.insert( map < wstring, wstring, less<wstring>>::value_type( _key, L"" ) );
        return my_map[_key];
    }
 
}
wstring & Array::operator [] (const int &_key){
 
    if(my_map.find( to_wstring(_key) )!= my_map.end( )) {
        return my_map[to_wstring(_key)];
    }else{
        my_map.insert( map < wstring, wstring, less<wstring>>::value_type( to_wstring(_key), L"" ) );
        return my_map[to_wstring(_key)];
    }
 
}
 
void Array::unset(const wstring& _key){
    my_map.erase(_key);
}
 
int Array::length(){
    return my_map.size();
}
 
void Array::unique(){
 
    map <wstring, wstring, less<wstring> > time_map;
    for( map < wstring, wstring, less<wstring> >::iterator i = my_map.begin( ); i !=my_map.end( ); ++i )
    {
        time_map.insert( map <wstring, wstring, less<wstring>>::value_type( ( *i ).second, ( *i ).first ) );
    }
    my_map.clear();
    for( map < wstring, wstring, less<wstring> >::iterator i = time_map.begin( ); i !=time_map.end( ); ++i )
    {
        my_map.insert( map < wstring, wstring, less<wstring>>::value_type( ( *i ).first, ( *i ).second ) );
    }
    time_map.clear();
}
 
bool Array::in_array(const wstring& _value){
    bool result = false;
    for( map < wstring, wstring, less<wstring> >::iterator i = my_map.begin( ); i !=my_map.end( ); ++i )
    {
        if(( *i ).second == _value){
            result = true;
        }
    }
    return result;
}
 
void preg_match_all(char *_regular,const string &_text,Array &_result){
 
    smatch base_result;
    ssub_match base_sub_match;
    string result;
    wstring utf_str;
 
    char * temp;
    wchar_t * wtemp;
 
    string::const_iterator ib = _text.begin(), ie = _text.end();
 
    for(int i = 0; regex_search(ib, ie,base_result, regex(_regular,regex_constants::icase)); ib = base_result[0].second, i++)
    {
 
        for (size_t i2 = 0; i2 < base_result.size(); i2++) {
            result = base_result[i2];
            temp = (char*)result.c_str();
            wtemp = new wchar_t[result.length()+1];
            mbstowcs(wtemp,temp,result.length()+1);
            utf_str = wtemp;
            utf_str[result.length()]= '\0';
            delete[]wtemp;
            _result.push(i+i2,utf_str);
 
        }
        i+=base_result.size()-1;
    }
}
static int writer(char *data, size_t size, size_t nmemb, string *buffer)
{
    //переменная - результат, по умолчанию нулевая
    int result = 0;
    //проверяем буфер
    if (buffer != NULL)
    {
        //добавляем к буферу строки из data, в количестве nmemb
        buffer->append(data, size * nmemb);
        //вычисляем объем принятых данных
        result = size * nmemb;
    }
    //вовзращаем результат
    return result;
}
void main()  {
    map < wstring, int, less<wstring> > map_url;
    string result;
    while(true){
        Array result_url;
        setlocale(LC_ALL,".886");
        CURL *curl;
        CURLcode res;
 
 
        curl = curl_easy_init();
        if(curl) {
            curl_easy_setopt(curl, CURLOPT_URL, "http://www.cyberforum.ru");
            curl_easy_setopt(curl, CURLOPT_HEADER, 1);
            curl_easy_setopt(curl, CURLOPT_SSL_VERIFYPEER, 0);
            curl_easy_setopt(curl, CURLOPT_SSL_VERIFYHOST, 0);
 
            //указываем функцию обратного вызова для записи получаемых данных
            curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, writer);
            //указываем куда записывать принимаемые данные
            curl_easy_setopt(curl, CURLOPT_WRITEDATA, &result);
            res = curl_easy_perform(curl);
            curl_easy_cleanup(curl);
        }
 
 
 
 
        preg_match_all("<a(.*?)href(.*?)\"(.*?)\"(.*?)>",result,result_url);
 
        for (int i = 0,i2=0; i < result_url.length(); i++,i2++)
        {
            if(i2 == 3){
 
 
                map_url.insert( map < wstring, int,less<wstring>>::value_type( result_url[i] ,0) );
                i2 = -2;
            }
        }
        result_url.clear();
 
 
    }
 
}
Добавлено через 2 часа 54 минуты
я тут короче, потесли сам и пришолт к выводу что так проц грузит сама регулярка, но тут таке дело, я запустил денвер, на нём написал php скрипт с таким же регулярным выражением, он спарсил всё в 2 раза быстрее, и при этом не задействовал больше 5% проца, как так?
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
05.08.2014, 17:42     Загрузка процессора при поиске по регулярному выражению
Посмотрите здесь:

Замена слов на кириллице по регулярному выражению - C++
Здравствуйте, помогите, пожалуйста. Имеется слово на кириллице: привет Имеется входной текст: привет приветливый приветствую привет ...

Функция для поиска по регулярному выражению - C++
Здорова господа! Нужно написать свою собственную функцию для поиска по регулярному выражению. Какой алгоритм? Как мне обрабатывать...

Нужна программа, которая по регулярному выражению находит все совпадения в строке - C++
Никак не могу освоить добавленную в C++11 библиотеку &lt;regex&gt;! Помогите пожалуйста! Нужна программа, которая по регулярному выражению...

загрузка процессора по максимуму - C++
день добрый! у меня прога работает около 3 -5 мин, но при этом загрузка процессора всего лишь 20% как можно увеличить скорость...

Каталог точка при поиске - C++
Добрый день. Пишу приложение, где произвожу поиск файла, используя рекурсивную функцию. Столкнулся с тем, что когда получаю список...

Переполнение буфера при поиске WNDDIR - C++
string getWNDdir(){ TCHAR wndbuff; memset(wndbuff,0,sizeof(TCHAR)*sizeof(wndbuff)); string strdir=&quot;&quot;; ...

Ошибка при поиске значения структуры - C++
Нужно написать структуру, которая состоит из следующих элементов - фамилия, имя, отчество, пол, 3 оценки и стипендия. Прочитать их из файла...

Ошибка в коде при поиске max и min - C++
В 17,18, 22, 23 пишет ошибку C2440. В 22, 23 пишет ошибку C2446. Подскажите пожалуйста, как правильно сделать. #include &lt;conio.h&gt; ...

Казус при поиске максимального элемента массива. - C++
Доброго времени суток, имеется программа для расчета волнового сопротивления микрополоска. В качестве входных данных используются размеры...

Порядок вершин при поиске кратчайшего пути - C++
Есть алгоритм Дейкстры для поиска кратчайшего пути между вершинами. Прога ищет путь правильно и выдает число равное длине минимального...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
Tulosba
:)
Эксперт С++
4392 / 3235 / 297
Регистрация: 19.02.2013
Сообщений: 9,045
05.08.2014, 18:02     Загрузка процессора при поиске по регулярному выражению #2
mh-coder, я думаю, имеет смысл натравить профилировщик для нахождения узких мест в программе.

Добавлено через 3 минуты
P.S. Хотя уже отсюда видно, что динамическое выделение (136), освобождение (140) памяти не эффективно. Имеет смысл выделить статически буфер достаточного размера или использовать какой-то подобие std::vector, чтобы выделять память не на каждой итерации.
mh-coder
24 / 23 / 3
Регистрация: 01.02.2014
Сообщений: 770
05.08.2014, 19:33  [ТС]     Загрузка процессора при поиске по регулярному выражению #3
я тут короче, потестил сам(вытер всё и оставил только регулярку) и пришолт к выводу что так проц грузит сама регулярка, но тут таке дело, я запустил денвер, на нём написал php скрипт с таким же регулярным выражением, он спарсил всё в 2 раза быстрее, и при этом не задействовал больше 5% проца, как так?

Добавлено через 1 час 4 минуты
я тут подумал, мб rexeg плох и есть что-то получше?
Yandex
Объявления
05.08.2014, 19:33     Загрузка процессора при поиске по регулярному выражению
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2017, vBulletin Solutions, Inc.
Рейтинг@Mail.ru