Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/4: Рейтинг темы: голосов - 4, средняя оценка - 4.75
0 / 0 / 0
Регистрация: 27.03.2012
Сообщений: 16

Оптимизация регулярок

22.10.2016, 20:23. Показов 850. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Для приведения в порядок наименований, артикулов и брендов используется следующий набор регулярок.
Пожалуйста, помогите оптимизировать этот код. На 100к строк уходит секунд 6

C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
var regAll = new Regex("[^A-Za-zА-Яа-я0-9:()-.,/ ]", RegexOptions.Compiled & RegexOptions.IgnoreCase);
var regTags = new Regex(@"(?></?\w+)(?>(?:[^>'""]+|'[^']*'|""[^""]*"")*)>", RegexOptions.Compiled & RegexOptions.IgnoreCase);
var regSpaces = new Regex(@"\s+", RegexOptions.Compiled & RegexOptions.IgnoreCase);
 
foreach (...)
{
var art = regTags.Replace(outsideProduct.Article, String.Empty);         //очищаем артикул от тегов
                    outsideProduct.Article = regSpaces.Replace(regAll.Replace(art, ""), " ").Trim();               //Удаляем лишние символы и пробелы
                    var brName = regTags.Replace(outsideProduct.BrandName, String.Empty);    //очищаем бренд от тегов
                    outsideProduct.BrandName = regSpaces.Replace(regAll.Replace(brName, ""), " ").Trim();            //Удаляем лишние символы и пробелы
                    outsideProduct.Name = regTags.Replace(outsideProduct.Name, String.Empty);    //очищаем наименование от тегов
                    outsideProduct.Name = regAll.Replace(outsideProduct.Name, "").Replace("\n", "");                                                                  //Удаляем лишние символы и переносы строк
                    outsideProduct.Name = Regex.Replace(outsideProduct.Name, @"(" + outsideProduct.Article + @")", String.Empty, RegexOptions.IgnoreCase & RegexOptions.Compiled);//Удаляем артикул из наименования
                    outsideProduct.Name = Regex.Replace(outsideProduct.Name, @"(" + outsideProduct.ArticleClear + @")", String.Empty, RegexOptions.IgnoreCase & RegexOptions.Compiled);         //Удаляем очищенный артикул из наименования
                    outsideProduct.Name = Regex.Replace(outsideProduct.Name, @"(" + outsideProduct.BrandName + @")", String.Empty, RegexOptions.IgnoreCase & RegexOptions.Compiled);//Удаляем бренд из наименования
                    outsideProduct.Name = Regex.Replace(outsideProduct.Name, @"(" + outsideProduct.BrandNameClear + @")", String.Empty, RegexOptions.IgnoreCase & RegexOptions.Compiled);       //Удаляем очищенный ьренд из наименования
                    outsideProduct.Name = regSpaces.Replace(outsideProduct.Name, " ").Trim();                                                                              //Приводим пробелы в порядок
                    if (outsideProduct.Name.Length < 3) continue;
                    outsideProduct.Name = outsideProduct.Name[0].ToString().ToUpper() + outsideProduct.Name.Substring(1, outsideProduct.Name.Length - 1);
}
Используя предварительную компиляцию выиграл секунду. Но, насколько я понимаю, вот здесь:
C#
1
 outsideProduct.Name = Regex.Replace(outsideProduct.Name, @"(" + outsideProduct.Article + @")", String.Empty, RegexOptions.IgnoreCase & RegexOptions.Compiled);
для каждой строки будет компилироваться отдельный экземпляр регэкспа, т.е. подставляемое значение артикула изменяется каждый раз. А скомпилированные регэкспы не высвобождаются из памяти, как указано на мсдн.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
22.10.2016, 20:23
Ответы с готовыми решениями:

Подскажите на счет регулярок
В общем пытаюсь разобраться, но что-то никак. Вот пример: Regex rgx = new Regex(&quot;&quot;); str = rgx.Replace(str, &quot;&quot;); Как...

Выдергивание ссылок из html без регулярок
Где то видел вытаскивание ссылок &lt;a href=&quot;www.sdfsdf.ru&quot;&gt;без регулярок, что то типа foreach (HtmlNode node in nodes) { ...

Проверка данных вводимых в форму без регулярок на C#
Как проверить соответствие урла вводимого в форму без регулярных выражений на CSharp? Проблема в следующем, вводимый урл всегда один...

2
134 / 130 / 107
Регистрация: 17.03.2009
Сообщений: 364
23.10.2016, 11:41
1) Распараллелить задачи посредством одновременного выполнения Task
2) Отказаться от Regex и написать свой разборщик строки.
0
Эксперт .NET
 Аватар для kolorotur
17823 / 12973 / 3382
Регистрация: 17.09.2011
Сообщений: 21,261
23.10.2016, 13:08
ArtProg, приведите пару примеров реальных строк.
Какой формат документа?
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
23.10.2016, 13:08
Помогаю со студенческими работами здесь

Типы оптимизация: черная оптимизация, серая оптимизация и белая оптимизация
Много много лет назад, на заре становления профессии &quot;оптимизатора&quot; в какой то умной книжке был создан миф. Это миф о цветовой индефикации...

Объединение регулярок
Здравствуйте, как эти 2 регулярки можно объединить в одну? В 1 случае номера телефонов на ссылку меняются, во 2 случае электронная почта...

Ограничение регулярок
Решил освоить регулярки, не могу найти внятного справочника. Поэтому просто изучаю примеры. Так вот, условие поиска ограничивается некими...

ЧПУ из регулярок
Есть ссылка вида site.ru/news?id=2 Нужно сделать чтобы была такого вида site.ru/news/2/ В правилах я прописал...

Тестер регулярок
Помогите разобраться с тем, что нет так. Не работает следующее: /\n/g не выделяет перевод на новую строку /&lt;b&gt;/g не выделяет:...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Как я обхитрил таблицу Word
Alexander-7 21.03.2026
Когда мигает курсор у внешнего края таблицы, и нам надо перейти на новую строку, а при нажатии Enter создается новый ряд таблицы с ячейками, то мы вместо нервных нажатий Энтеров мы пишем любые буквы. . .
Krabik - рыболовный бот для WoW 3.3.5a
AmbA 21.03.2026
без регистрации и смс. Это не торговля, приложение не содержит рекламы. Выполняет свою непосредственную задачу - автоматизацию рыбалки в WoW - и ничего более. Однако если админы будут против -. . .
Программный отбор значений справочника
Maks 21.03.2026
Установка программного отбора значений справочника "Сотрудники" из модуля формы документа. В качестве фильтра для отбора служит предопределенное значение перечислений. Процедура. . .
Переходник USB-CAN-GPIO
Eddy_Em 20.03.2026
Достаточно давно на работе возникла необходимость в переходнике CAN-USB с гальваноразвязкой, оный и был разработан. Однако, все меня терзала совесть, что аж 48-ногий МК используется так тупо: просто. . .
Оттенки серого
Argus19 18.03.2026
Оттенки серого Нашёл в интернете 3 прекрасных модуля: Модуль класса открытия диалога открытия/ сохранения файла на Win32 API; Модуль класса быстрого перекодирования цветного изображения в оттенки. . .
SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++
8Observer8 17.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-rectangles-sdl3-c. zip finish-rectangles-sdl3-cpp. zip
Символические и жёсткие ссылки в Linux.
algri14 15.03.2026
Существует два типа ссылок — символические и жёсткие. Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru