Форум программистов, компьютерный форум, киберфорум
C++ Builder
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/8: Рейтинг темы: голосов - 8, средняя оценка - 5.00
191 / 52 / 19
Регистрация: 18.02.2013
Сообщений: 508
Записей в блоге: 9

Ускорить алгоритм обработки текста

13.03.2016, 13:19. Показов 1693. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте.
Есть программа для обработки ссылок на сайты - нахождение и сохранение доменов.
Её работа заключается в следующем:
есть строка
Code
1
https://www.cyberforum.ru/newthread.php?do=postthread&f=20
из которой должно получиться следующее
Code
1
https://www.cyberforum.ru/
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
    TRegExpr *clearURL = new TRegExpr();
    TStringList *Output = new TStringList();
    Output->WriteBOM = false;
    Output->Sorted = true;
    Output->Duplicates = System::Classes::TDuplicates::dupIgnore;
    clearURL->ModifierM = true;
    clearURL->Expression = _T("^http(s)?://.*?/");
    if(clearURL->Exec(URL->Text))
    {
        do
        {
            Output->Add(clearURL->Match[0]);
        }
        while (clearURL->ExecNext());
    }
 
    Label4->Caption = Output->Count;
    Output->SaveToFile(ExtractFileDir(Application->ExeName) + "\\URL" + Name + "_clear.txt", TEncoding::UTF8);
 
    delete clearURL;
    Output->Clear();
    delete Output;
URL - исходный СтрингЛист с данными.
Так вот, этот код работает, но на больших объемах(500 000 строк и более) жутко тормозит(я так и не дождался его выполнения).
Помогите ускорить алгоритм обработки. Спасибо.
Вложения
Тип файла: zip URL_01.03.20161.txt.zip (5.65 Мб, 8 просмотров)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
13.03.2016, 13:19
Ответы с готовыми решениями:

Ускорить алгоритм
Есть код который сохраняет строку из StringList в 2-ой StringList, если этой строки нет в 3-ий StringList ... unsigned __stdcall OST(...

Ускорить объединение двух стринггридов (алгоритм)
Привет всем. постараюсь объяснить суть вопроса. на сервере есть исполняемая программа типа база (список , координаты, и другие метки)...

Ускорить алгоритм удаления одного списка из другого
Здравствуйте. Есть два списка : один на 181093 строк другой на 80000. Нужно удалить один список из другого. Моя реализация: ...

5
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33399 / 21509 / 8236
Регистрация: 22.10.2011
Сообщений: 36,907
Записей в блоге: 12
13.03.2016, 13:21
Файл с данными прикрепи, хочется поэкспериментировать, есть кое-какая идея...
0
191 / 52 / 19
Регистрация: 18.02.2013
Сообщений: 508
Записей в блоге: 9
13.03.2016, 13:24  [ТС]
Файл в аттаче.
0
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33399 / 21509 / 8236
Регистрация: 22.10.2011
Сообщений: 36,907
Записей в блоге: 12
13.03.2016, 14:08
Лучший ответ Сообщение было отмечено Gdasar как решение

Решение

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
class TFastURL : public Classes::TStringList
{
private:
    TRegExpr *re;
public:
    virtual int __fastcall Add(const UnicodeString S)
    {
        int Result = -1;
        if(re->Exec(S))
        {
        String s = re->Match[0];
        Result = Classes::TStringList::Add(s);
        }
        return Result;
    }
 
    __fastcall TFastURL(void) : TStringList()
    {
        Sorted = true;
        Duplicates = dupIgnore;
        WriteBOM = false;
        re = new TRegExpr();
        re->Expression = _T("^http(s)?://.*?/");
    }
    __fastcall virtual ~TFastURL()
    {
        delete re;
    }
};
 
 
void __fastcall TForm1::Button62Click(TObject *Sender)
{
    // ...
    std::auto_ptr<TStringList> URL(new TStringList);
    URL->LoadFromFile("D:\\test\\URL_01.03.20161.txt");
 
    std::auto_ptr<TFastURL> Output(new TFastURL);
    for(int i = 0; i < URL->Count; i++) Output->Add(URL->Strings[i]);
    Output->SaveToFile(ExtractFileDir(Application->ExeName) + "\\URL" + Name + "_clear.txt", TEncoding::UTF8);
}
меньше 2-х секунд на твоем файле. Достаточная скорость?
2
191 / 52 / 19
Регистрация: 18.02.2013
Сообщений: 508
Записей в блоге: 9
13.03.2016, 16:06  [ТС]
Цитата Сообщение от volvo Посмотреть сообщение
меньше 2-х секунд


Я вчера более часа ждал(так и не дождался), а тут 2 секунды.

Добавлено через 1 час 28 минут
Переписал свой код:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
    TRegExpr *clearURL = new TRegExpr();
    int a = DateTimeToUnix(Now());
    TStringList *Output = new TStringList();
    Output->WriteBOM = false;
    Output->Sorted = true;
    Output->Duplicates = System::Classes::TDuplicates::dupIgnore;
    clearURL->Expression = _T("^http(s)?://.*?/");
    clearURL->Compile();
    for(int i = 0; i < URL->Count; i++)
    {
        if(clearURL->Exec(URL->Strings[i]))
        {
            Output->Add(clearURL->Match[0]);
        }
    }
 
    Label4->Caption = Output->Count;
    Output->SaveToFile(ExtractFileDir(Application->ExeName) + "\\URL" + Name + "_clear.txt", TEncoding::UTF8);
    int b = DateTimeToUnix(Now());
    delete clearURL;
    Output->Clear();
    delete Output;
    Label6->Caption = b - a;
Отрабатывает за 3 секунды.
Далее я решил устроить нагрузочное тестирование для своего алгоритма и для Вашего.
Загрузил более 2 миллионов строчек и бац - Our of memory...
Файл для тестирования.
0
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33399 / 21509 / 8236
Регистрация: 22.10.2011
Сообщений: 36,907
Записей в блоге: 12
13.03.2016, 16:49
Лучший ответ Сообщение было отмечено Gdasar как решение

Решение

Естественно, с файлом размером больше 170МБ... Перепиши вот так:
C++
1
2
3
4
5
6
7
8
9
    std::auto_ptr<TFastURL>Output(new TFastURL);
    TStreamReader* reader =
        new TStreamReader(new TFileStream(fn, fmOpenRead), TEncoding::UTF8); // ну, или другую кодировку
    while (!reader->EndOfStream)
    {
        Output->Add(reader->ReadLine());
    }
    delete reader->BaseStream;
    delete reader;
Это будет чуть медленнее работать на предыдущем тесте (вместо 2-х секунд - около 5-ти), но зато на крайнем - вместо вылета за 25 секунд обрабатывается файл.
3
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
13.03.2016, 16:49
Помогаю со студенческими работами здесь

Ускорить алгоритм составления списка файлов данной директории
Здравствуйте. Есть папка с файлами(462166 штук), как мне быстро получить их список, а следовательно и их количество? Вот, собственно,...

Алгоритм шифрования DES (необходимо ускорить любым доступным способом)
Есть алгоритм шифрования дес, он работает но работает медленно ну или скажем так ... недостаточно быстро для того чтобы препод его принял....

Алгоритм для обработки данных частотного анализа
Честно говоря я сомневаюсь, что писать нужно сюда, но к экспертам меня не пускают)) Сам я далеко не эксперт! Очень надеюсь на ваше...

Алгоритм обработки фотографий камеры 360 градусов
Ребят есть ли какой код поясняющий принцип обработки этой камерой фотографий и предствлении их в формате 360 градусов или может кто...

Придумать и реализовать алгоритм шифрования текста (использовать функции обработки символов и строк)
5)Придумать и реализовать алгоритм шифрования текста (использовать функции обработки символов и строк).


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++
8Observer8 17.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-rectangles-sdl3-c. zip finish-rectangles-sdl3-cpp. zip
Символические и жёсткие ссылки в Linux.
algri14 15.03.2026
Существует два типа ссылок — символические и жёсткие. Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru