Форум программистов, компьютерный форум, киберфорум
С++ для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/3: Рейтинг темы: голосов - 3, средняя оценка - 4.67
32 / 30 / 4
Регистрация: 01.02.2014
Сообщений: 878

Загрузка процессора при поиске по регулярному выражению

05.08.2014, 17:42. Показов 672. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Смысл кода ниже, спарсить страницу и найти ссылки, юзаю regex, написал небольшую функцию для удобности его использования, в итоге когда происходит поиск по регулярному выражению в самой эттой функции мой 2ух ядерный проц загружается на 25% и я не могу понять, мой ли это косяк или это всётаки регулярки так долго ищут, мб хто чт подскажет.

C++ (Qt)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
//#include "Header.h"
#include "curl.h"
#include "dirent.h"
#pragma comment(lib,"curllib.lib")
#include <iostream>
#include <map>
#include <string>
#include <time.h>
#include <regex>
using namespace std;
 
 
class Array{
public:
 
    Array();
    ~Array();
 
    wstring & operator [] (const wstring&);
    wstring & operator [] (const int&);
    void unset(const wstring&);  // удалить
    int length(void);        // вернуть длину массива
    void unique(void);       // уникализировать массив
    bool in_array(const wstring&); // поиск значения в массиве
    void push(const wstring&,const wstring&); //взтавить ключ+значение (функция только для вставки, работает в 2 раза быстее чем [])
    void push(const int&,const wstring&); //взтавить ключ+значение (функция только для вставки, работает в 2 раза быстее чем [])
    void clear();
    void print(void){
        for( map < wstring, wstring, less<wstring> >::iterator i = my_map.begin( ); i !=my_map.end( ); ++i )
            wcout << ( *i ).first << ":" << ( *i ).second << endl;
    }
 
 
private:
 
    map < wstring, wstring, less<wstring> > my_map;
 
 
 
 
};
 
Array::Array(){
 
}
 
Array::~Array(){
    my_map.clear();
}
 
 
void Array::clear(){
    my_map.clear();
}
void Array::push(const wstring& _key,const wstring& _value){
    my_map.insert( map < wstring, wstring, less<wstring>>::value_type( _key, _value ) );
}
 
void Array::push(const int& _key,const wstring& _value){
    my_map.insert( map < wstring, wstring, less<wstring>>::value_type( to_wstring(_key), _value ) );
}
 
wstring & Array::operator [] (const wstring &_key){
 
    if(my_map.find( _key )!= my_map.end( )) {
        return my_map[_key];
    }else{
        my_map.insert( map < wstring, wstring, less<wstring>>::value_type( _key, L"" ) );
        return my_map[_key];
    }
 
}
wstring & Array::operator [] (const int &_key){
 
    if(my_map.find( to_wstring(_key) )!= my_map.end( )) {
        return my_map[to_wstring(_key)];
    }else{
        my_map.insert( map < wstring, wstring, less<wstring>>::value_type( to_wstring(_key), L"" ) );
        return my_map[to_wstring(_key)];
    }
 
}
 
void Array::unset(const wstring& _key){
    my_map.erase(_key);
}
 
int Array::length(){
    return my_map.size();
}
 
void Array::unique(){
 
    map <wstring, wstring, less<wstring> > time_map;
    for( map < wstring, wstring, less<wstring> >::iterator i = my_map.begin( ); i !=my_map.end( ); ++i )
    {
        time_map.insert( map <wstring, wstring, less<wstring>>::value_type( ( *i ).second, ( *i ).first ) );
    }
    my_map.clear();
    for( map < wstring, wstring, less<wstring> >::iterator i = time_map.begin( ); i !=time_map.end( ); ++i )
    {
        my_map.insert( map < wstring, wstring, less<wstring>>::value_type( ( *i ).first, ( *i ).second ) );
    }
    time_map.clear();
}
 
bool Array::in_array(const wstring& _value){
    bool result = false;
    for( map < wstring, wstring, less<wstring> >::iterator i = my_map.begin( ); i !=my_map.end( ); ++i )
    {
        if(( *i ).second == _value){
            result = true;
        }
    }
    return result;
}
 
void preg_match_all(char *_regular,const string &_text,Array &_result){
 
    smatch base_result;
    ssub_match base_sub_match;
    string result;
    wstring utf_str;
 
    char * temp;
    wchar_t * wtemp;
 
    string::const_iterator ib = _text.begin(), ie = _text.end();
 
    for(int i = 0; regex_search(ib, ie,base_result, regex(_regular,regex_constants::icase)); ib = base_result[0].second, i++)
    {
 
        for (size_t i2 = 0; i2 < base_result.size(); i2++) {
            result = base_result[i2];
            temp = (char*)result.c_str();
            wtemp = new wchar_t[result.length()+1];
            mbstowcs(wtemp,temp,result.length()+1);
            utf_str = wtemp;
            utf_str[result.length()]= '\0';
            delete[]wtemp;
            _result.push(i+i2,utf_str);
 
        }
        i+=base_result.size()-1;
    }
}
static int writer(char *data, size_t size, size_t nmemb, string *buffer)
{
    //переменная - результат, по умолчанию нулевая
    int result = 0;
    //проверяем буфер
    if (buffer != NULL)
    {
        //добавляем к буферу строки из data, в количестве nmemb
        buffer->append(data, size * nmemb);
        //вычисляем объем принятых данных
        result = size * nmemb;
    }
    //вовзращаем результат
    return result;
}
void main()  {
    map < wstring, int, less<wstring> > map_url;
    string result;
    while(true){
        Array result_url;
        setlocale(LC_ALL,".886");
        CURL *curl;
        CURLcode res;
 
 
        curl = curl_easy_init();
        if(curl) {
            curl_easy_setopt(curl, CURLOPT_URL, "https://www.cyberforum.ru");
            curl_easy_setopt(curl, CURLOPT_HEADER, 1);
            curl_easy_setopt(curl, CURLOPT_SSL_VERIFYPEER, 0);
            curl_easy_setopt(curl, CURLOPT_SSL_VERIFYHOST, 0);
 
            //указываем функцию обратного вызова для записи получаемых данных
            curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, writer);
            //указываем куда записывать принимаемые данные
            curl_easy_setopt(curl, CURLOPT_WRITEDATA, &result);
            res = curl_easy_perform(curl);
            curl_easy_cleanup(curl);
        }
 
 
 
 
        preg_match_all("<a(.*?)href(.*?)\"(.*?)\"(.*?)>",result,result_url);
 
        for (int i = 0,i2=0; i < result_url.length(); i++,i2++)
        {
            if(i2 == 3){
 
 
                map_url.insert( map < wstring, int,less<wstring>>::value_type( result_url[i] ,0) );
                i2 = -2;
            }
        }
        result_url.clear();
 
 
    }
 
}
Добавлено через 2 часа 54 минуты
я тут короче, потесли сам и пришолт к выводу что так проц грузит сама регулярка, но тут таке дело, я запустил денвер, на нём написал php скрипт с таким же регулярным выражением, он спарсил всё в 2 раза быстрее, и при этом не задействовал больше 5% проца, как так?
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
05.08.2014, 17:42
Ответы с готовыми решениями:

Поиск по регулярному выражению
Не подскажете как искать выражения, которые находятся в ссылках. вот например &lt;option value=&quot;/aliger/&quot;&gt;Алигер...

Поиск по регулярному выражению
Доброго времени суток, есть необходимость проверки формулы по регулярному выражению. Написал регулярное выражение для поиска с таким...

Поиск по регулярному выражению
В файле лежит код страницы,нужно в нём найти &lt;input id=&quot;srf&quot; name=&quot;srf&quot; type=&quot;hidden&quot; value=&quot;aaaaa44444ssssss55555ggggg6666&quot;...

2
:)
Эксперт С++
4773 / 3267 / 497
Регистрация: 19.02.2013
Сообщений: 9,046
05.08.2014, 18:02
mh-coder, я думаю, имеет смысл натравить профилировщик для нахождения узких мест в программе.

Добавлено через 3 минуты
P.S. Хотя уже отсюда видно, что динамическое выделение (136), освобождение (140) памяти не эффективно. Имеет смысл выделить статически буфер достаточного размера или использовать какой-то подобие std::vector, чтобы выделять память не на каждой итерации.
1
32 / 30 / 4
Регистрация: 01.02.2014
Сообщений: 878
05.08.2014, 19:33  [ТС]
я тут короче, потестил сам(вытер всё и оставил только регулярку) и пришолт к выводу что так проц грузит сама регулярка, но тут таке дело, я запустил денвер, на нём написал php скрипт с таким же регулярным выражением, он спарсил всё в 2 раза быстрее, и при этом не задействовал больше 5% проца, как так?

Добавлено через 1 час 4 минуты
я тут подумал, мб rexeg плох и есть что-то получше?
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
05.08.2014, 19:33
Помогаю со студенческими работами здесь

Создание НКА по регулярному выражению
Помогите идейками, пожалуйста. Мне необходимо написать программу, реализующую построение ДКА по цепочкам вида Z=1++1*01(11+01)+. Программа...

Долгий поиск по регулярному выражению
Здравствуйте. Ищу через devexpress rich edit control через Document.FindAll(new...

Замена текста по регулярному выражению
В файле имеется ряд строк, среди которых есть следующая строка: starts3d4s4end Необходимо найти эту строку, зная лишь то, что она...

Поиск на сайте по регулярному выражению
есть html форма &lt;html&gt;&lt;body&gt; &lt;form action=&quot;search.php&quot;&gt; страница поиска email: &lt;input type=text name=&quot;mail&quot;...

Поиск файла по регулярному выражению
Написал функцию public void search(File topDirectory, String mask, int chooseSearch) { File flist; flist =...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru