Форум программистов, компьютерный форум, киберфорум
C++ Builder
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/8: Рейтинг темы: голосов - 8, средняя оценка - 5.00
191 / 52 / 19
Регистрация: 18.02.2013
Сообщений: 508
Записей в блоге: 9

Ускорить алгоритм обработки текста

13.03.2016, 13:19. Показов 1669. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте.
Есть программа для обработки ссылок на сайты - нахождение и сохранение доменов.
Её работа заключается в следующем:
есть строка
Code
1
https://www.cyberforum.ru/newthread.php?do=postthread&f=20
из которой должно получиться следующее
Code
1
https://www.cyberforum.ru/
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
    TRegExpr *clearURL = new TRegExpr();
    TStringList *Output = new TStringList();
    Output->WriteBOM = false;
    Output->Sorted = true;
    Output->Duplicates = System::Classes::TDuplicates::dupIgnore;
    clearURL->ModifierM = true;
    clearURL->Expression = _T("^http(s)?://.*?/");
    if(clearURL->Exec(URL->Text))
    {
        do
        {
            Output->Add(clearURL->Match[0]);
        }
        while (clearURL->ExecNext());
    }
 
    Label4->Caption = Output->Count;
    Output->SaveToFile(ExtractFileDir(Application->ExeName) + "\\URL" + Name + "_clear.txt", TEncoding::UTF8);
 
    delete clearURL;
    Output->Clear();
    delete Output;
URL - исходный СтрингЛист с данными.
Так вот, этот код работает, но на больших объемах(500 000 строк и более) жутко тормозит(я так и не дождался его выполнения).
Помогите ускорить алгоритм обработки. Спасибо.
Вложения
Тип файла: zip URL_01.03.20161.txt.zip (5.65 Мб, 8 просмотров)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
13.03.2016, 13:19
Ответы с готовыми решениями:

Ускорить алгоритм
Есть код который сохраняет строку из StringList в 2-ой StringList, если этой строки нет в 3-ий StringList ... unsigned __stdcall OST(...

Ускорить объединение двух стринггридов (алгоритм)
Привет всем. постараюсь объяснить суть вопроса. на сервере есть исполняемая программа типа база (список , координаты, и другие метки)...

Ускорить алгоритм удаления одного списка из другого
Здравствуйте. Есть два списка : один на 181093 строк другой на 80000. Нужно удалить один список из другого. Моя реализация: ...

5
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33195 / 21491 / 8233
Регистрация: 22.10.2011
Сообщений: 36,879
Записей в блоге: 12
13.03.2016, 13:21
Файл с данными прикрепи, хочется поэкспериментировать, есть кое-какая идея...
0
191 / 52 / 19
Регистрация: 18.02.2013
Сообщений: 508
Записей в блоге: 9
13.03.2016, 13:24  [ТС]
Файл в аттаче.
0
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33195 / 21491 / 8233
Регистрация: 22.10.2011
Сообщений: 36,879
Записей в блоге: 12
13.03.2016, 14:08
Лучший ответ Сообщение было отмечено Gdasar как решение

Решение

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
class TFastURL : public Classes::TStringList
{
private:
    TRegExpr *re;
public:
    virtual int __fastcall Add(const UnicodeString S)
    {
        int Result = -1;
        if(re->Exec(S))
        {
        String s = re->Match[0];
        Result = Classes::TStringList::Add(s);
        }
        return Result;
    }
 
    __fastcall TFastURL(void) : TStringList()
    {
        Sorted = true;
        Duplicates = dupIgnore;
        WriteBOM = false;
        re = new TRegExpr();
        re->Expression = _T("^http(s)?://.*?/");
    }
    __fastcall virtual ~TFastURL()
    {
        delete re;
    }
};
 
 
void __fastcall TForm1::Button62Click(TObject *Sender)
{
    // ...
    std::auto_ptr<TStringList> URL(new TStringList);
    URL->LoadFromFile("D:\\test\\URL_01.03.20161.txt");
 
    std::auto_ptr<TFastURL> Output(new TFastURL);
    for(int i = 0; i < URL->Count; i++) Output->Add(URL->Strings[i]);
    Output->SaveToFile(ExtractFileDir(Application->ExeName) + "\\URL" + Name + "_clear.txt", TEncoding::UTF8);
}
меньше 2-х секунд на твоем файле. Достаточная скорость?
2
191 / 52 / 19
Регистрация: 18.02.2013
Сообщений: 508
Записей в блоге: 9
13.03.2016, 16:06  [ТС]
Цитата Сообщение от volvo Посмотреть сообщение
меньше 2-х секунд


Я вчера более часа ждал(так и не дождался), а тут 2 секунды.

Добавлено через 1 час 28 минут
Переписал свой код:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
    TRegExpr *clearURL = new TRegExpr();
    int a = DateTimeToUnix(Now());
    TStringList *Output = new TStringList();
    Output->WriteBOM = false;
    Output->Sorted = true;
    Output->Duplicates = System::Classes::TDuplicates::dupIgnore;
    clearURL->Expression = _T("^http(s)?://.*?/");
    clearURL->Compile();
    for(int i = 0; i < URL->Count; i++)
    {
        if(clearURL->Exec(URL->Strings[i]))
        {
            Output->Add(clearURL->Match[0]);
        }
    }
 
    Label4->Caption = Output->Count;
    Output->SaveToFile(ExtractFileDir(Application->ExeName) + "\\URL" + Name + "_clear.txt", TEncoding::UTF8);
    int b = DateTimeToUnix(Now());
    delete clearURL;
    Output->Clear();
    delete Output;
    Label6->Caption = b - a;
Отрабатывает за 3 секунды.
Далее я решил устроить нагрузочное тестирование для своего алгоритма и для Вашего.
Загрузил более 2 миллионов строчек и бац - Our of memory...
Файл для тестирования.
0
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33195 / 21491 / 8233
Регистрация: 22.10.2011
Сообщений: 36,879
Записей в блоге: 12
13.03.2016, 16:49
Лучший ответ Сообщение было отмечено Gdasar как решение

Решение

Естественно, с файлом размером больше 170МБ... Перепиши вот так:
C++
1
2
3
4
5
6
7
8
9
    std::auto_ptr<TFastURL>Output(new TFastURL);
    TStreamReader* reader =
        new TStreamReader(new TFileStream(fn, fmOpenRead), TEncoding::UTF8); // ну, или другую кодировку
    while (!reader->EndOfStream)
    {
        Output->Add(reader->ReadLine());
    }
    delete reader->BaseStream;
    delete reader;
Это будет чуть медленнее работать на предыдущем тесте (вместо 2-х секунд - около 5-ти), но зато на крайнем - вместо вылета за 25 секунд обрабатывается файл.
3
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
13.03.2016, 16:49
Помогаю со студенческими работами здесь

Ускорить алгоритм составления списка файлов данной директории
Здравствуйте. Есть папка с файлами(462166 штук), как мне быстро получить их список, а следовательно и их количество? Вот, собственно,...

Алгоритм шифрования DES (необходимо ускорить любым доступным способом)
Есть алгоритм шифрования дес, он работает но работает медленно ну или скажем так ... недостаточно быстро для того чтобы препод его принял....

Алгоритм для обработки данных частотного анализа
Честно говоря я сомневаюсь, что писать нужно сюда, но к экспертам меня не пускают)) Сам я далеко не эксперт! Очень надеюсь на ваше...

Алгоритм обработки фотографий камеры 360 градусов
Ребят есть ли какой код поясняющий принцип обработки этой камерой фотографий и предствлении их в формате 360 градусов или может кто...

Придумать и реализовать алгоритм шифрования текста (использовать функции обработки символов и строк)
5)Придумать и реализовать алгоритм шифрования текста (использовать функции обработки символов и строк).


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США. Нашел на реддите интересную статью под названием «Кто-нибудь знает, где получить бесплатный компьютер или. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru