Форум программистов, компьютерный форум CyberForum.ru
Наши страницы

Загрузка процессора при поиске по регулярному выражению - C++

Войти
Регистрация
Восстановить пароль
Другие темы раздела
C++ Консольное приложение, которое парсит HTML страничку http://www.cyberforum.ru/cpp-beginners/thread1238692.html
Доброго времени суток! Есть сайт с такой страницей: <html> <head> <title>MPAYKYAYRRALM</title> </head> <body> </body> </html>
C++ Зачем нужен h-файл? Почему нельзя все хранить в cpp? Помогите новичку! С с++ работаю впервые. Перешел с явы, делфи, рнр. Не понимаю что такое h-файл и чем он отличается от cpp и почему нельзя все хранить в одном файле... Нужно "сломать сознание" под... http://www.cyberforum.ru/cpp-beginners/thread1238679.html
Составить программу расчета биномиальных коэффициентов C++
Добрый день, помогите пожалуйста решить. Задание надо переписывать в тело сообщения!
Работа с почтой: подключение, поиск, отправка C++
Привет, хочу написать свой велосипед, так в качестве разминки С++ Хочу написать программу для подключения к почтовому ящику, и набор функций (поиск, оправка почты и тд) Может есть готовые...
C++ Как подсчитать произведенное количество перестановок при быстрой сортировке? http://www.cyberforum.ru/cpp-beginners/thread1238649.html
имею такой код #include <iostream> using namespace std; void qSort (int a,int nStart, int nEnd) { int L,R,c,X; if (nStart>=nEnd) return; L=nStart; R=nEnd; X=a;
C++ Шаблоны, рекурсия, определение типов std::function #include <tuple> #include <vector> #include <iostream> #include <functional> #include <type_traits> template<typename T> struct function_traits; template<typename R, typename ...Args> подробнее

Показать сообщение отдельно
mh-coder
-4 / 26 / 3
Регистрация: 01.02.2014
Сообщений: 794

Загрузка процессора при поиске по регулярному выражению - C++

05.08.2014, 17:42. Просмотров 356. Ответов 2
Метки (Все метки)

Смысл кода ниже, спарсить страницу и найти ссылки, юзаю regex, написал небольшую функцию для удобности его использования, в итоге когда происходит поиск по регулярному выражению в самой эттой функции мой 2ух ядерный проц загружается на 25% и я не могу понять, мой ли это косяк или это всётаки регулярки так долго ищут, мб хто чт подскажет.

C++ (Qt)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
//#include "Header.h"
#include "curl.h"
#include "dirent.h"
#pragma comment(lib,"curllib.lib")
#include <iostream>
#include <map>
#include <string>
#include <time.h>
#include <regex>
using namespace std;
 
 
class Array{
public:
 
    Array();
    ~Array();
 
    wstring & operator [] (const wstring&);
    wstring & operator [] (const int&);
    void unset(const wstring&);  // удалить
    int length(void);        // вернуть длину массива
    void unique(void);       // уникализировать массив
    bool in_array(const wstring&); // поиск значения в массиве
    void push(const wstring&,const wstring&); //взтавить ключ+значение (функция только для вставки, работает в 2 раза быстее чем [])
    void push(const int&,const wstring&); //взтавить ключ+значение (функция только для вставки, работает в 2 раза быстее чем [])
    void clear();
    void print(void){
        for( map < wstring, wstring, less<wstring> >::iterator i = my_map.begin( ); i !=my_map.end( ); ++i )
            wcout << ( *i ).first << ":" << ( *i ).second << endl;
    }
 
 
private:
 
    map < wstring, wstring, less<wstring> > my_map;
 
 
 
 
};
 
Array::Array(){
 
}
 
Array::~Array(){
    my_map.clear();
}
 
 
void Array::clear(){
    my_map.clear();
}
void Array::push(const wstring& _key,const wstring& _value){
    my_map.insert( map < wstring, wstring, less<wstring>>::value_type( _key, _value ) );
}
 
void Array::push(const int& _key,const wstring& _value){
    my_map.insert( map < wstring, wstring, less<wstring>>::value_type( to_wstring(_key), _value ) );
}
 
wstring & Array::operator [] (const wstring &_key){
 
    if(my_map.find( _key )!= my_map.end( )) {
        return my_map[_key];
    }else{
        my_map.insert( map < wstring, wstring, less<wstring>>::value_type( _key, L"" ) );
        return my_map[_key];
    }
 
}
wstring & Array::operator [] (const int &_key){
 
    if(my_map.find( to_wstring(_key) )!= my_map.end( )) {
        return my_map[to_wstring(_key)];
    }else{
        my_map.insert( map < wstring, wstring, less<wstring>>::value_type( to_wstring(_key), L"" ) );
        return my_map[to_wstring(_key)];
    }
 
}
 
void Array::unset(const wstring& _key){
    my_map.erase(_key);
}
 
int Array::length(){
    return my_map.size();
}
 
void Array::unique(){
 
    map <wstring, wstring, less<wstring> > time_map;
    for( map < wstring, wstring, less<wstring> >::iterator i = my_map.begin( ); i !=my_map.end( ); ++i )
    {
        time_map.insert( map <wstring, wstring, less<wstring>>::value_type( ( *i ).second, ( *i ).first ) );
    }
    my_map.clear();
    for( map < wstring, wstring, less<wstring> >::iterator i = time_map.begin( ); i !=time_map.end( ); ++i )
    {
        my_map.insert( map < wstring, wstring, less<wstring>>::value_type( ( *i ).first, ( *i ).second ) );
    }
    time_map.clear();
}
 
bool Array::in_array(const wstring& _value){
    bool result = false;
    for( map < wstring, wstring, less<wstring> >::iterator i = my_map.begin( ); i !=my_map.end( ); ++i )
    {
        if(( *i ).second == _value){
            result = true;
        }
    }
    return result;
}
 
void preg_match_all(char *_regular,const string &_text,Array &_result){
 
    smatch base_result;
    ssub_match base_sub_match;
    string result;
    wstring utf_str;
 
    char * temp;
    wchar_t * wtemp;
 
    string::const_iterator ib = _text.begin(), ie = _text.end();
 
    for(int i = 0; regex_search(ib, ie,base_result, regex(_regular,regex_constants::icase)); ib = base_result[0].second, i++)
    {
 
        for (size_t i2 = 0; i2 < base_result.size(); i2++) {
            result = base_result[i2];
            temp = (char*)result.c_str();
            wtemp = new wchar_t[result.length()+1];
            mbstowcs(wtemp,temp,result.length()+1);
            utf_str = wtemp;
            utf_str[result.length()]= '\0';
            delete[]wtemp;
            _result.push(i+i2,utf_str);
 
        }
        i+=base_result.size()-1;
    }
}
static int writer(char *data, size_t size, size_t nmemb, string *buffer)
{
    //переменная - результат, по умолчанию нулевая
    int result = 0;
    //проверяем буфер
    if (buffer != NULL)
    {
        //добавляем к буферу строки из data, в количестве nmemb
        buffer->append(data, size * nmemb);
        //вычисляем объем принятых данных
        result = size * nmemb;
    }
    //вовзращаем результат
    return result;
}
void main()  {
    map < wstring, int, less<wstring> > map_url;
    string result;
    while(true){
        Array result_url;
        setlocale(LC_ALL,".886");
        CURL *curl;
        CURLcode res;
 
 
        curl = curl_easy_init();
        if(curl) {
            curl_easy_setopt(curl, CURLOPT_URL, "http://www.cyberforum.ru");
            curl_easy_setopt(curl, CURLOPT_HEADER, 1);
            curl_easy_setopt(curl, CURLOPT_SSL_VERIFYPEER, 0);
            curl_easy_setopt(curl, CURLOPT_SSL_VERIFYHOST, 0);
 
            //указываем функцию обратного вызова для записи получаемых данных
            curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, writer);
            //указываем куда записывать принимаемые данные
            curl_easy_setopt(curl, CURLOPT_WRITEDATA, &result);
            res = curl_easy_perform(curl);
            curl_easy_cleanup(curl);
        }
 
 
 
 
        preg_match_all("<a(.*?)href(.*?)\"(.*?)\"(.*?)>",result,result_url);
 
        for (int i = 0,i2=0; i < result_url.length(); i++,i2++)
        {
            if(i2 == 3){
 
 
                map_url.insert( map < wstring, int,less<wstring>>::value_type( result_url[i] ,0) );
                i2 = -2;
            }
        }
        result_url.clear();
 
 
    }
 
}
Добавлено через 2 часа 54 минуты
я тут короче, потесли сам и пришолт к выводу что так проц грузит сама регулярка, но тут таке дело, я запустил денвер, на нём написал php скрипт с таким же регулярным выражением, он спарсил всё в 2 раза быстрее, и при этом не задействовал больше 5% проца, как так?
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
 
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2017, vBulletin Solutions, Inc.
Рейтинг@Mail.ru