С Новым годом! Форум программистов, компьютерный форум, киберфорум
C++ Builder
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/8: Рейтинг темы: голосов - 8, средняя оценка - 5.00
191 / 52 / 19
Регистрация: 18.02.2013
Сообщений: 508
Записей в блоге: 9

Ускорить алгоритм обработки текста

13.03.2016, 13:19. Показов 1673. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте.
Есть программа для обработки ссылок на сайты - нахождение и сохранение доменов.
Её работа заключается в следующем:
есть строка
Code
1
https://www.cyberforum.ru/newthread.php?do=postthread&f=20
из которой должно получиться следующее
Code
1
https://www.cyberforum.ru/
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
    TRegExpr *clearURL = new TRegExpr();
    TStringList *Output = new TStringList();
    Output->WriteBOM = false;
    Output->Sorted = true;
    Output->Duplicates = System::Classes::TDuplicates::dupIgnore;
    clearURL->ModifierM = true;
    clearURL->Expression = _T("^http(s)?://.*?/");
    if(clearURL->Exec(URL->Text))
    {
        do
        {
            Output->Add(clearURL->Match[0]);
        }
        while (clearURL->ExecNext());
    }
 
    Label4->Caption = Output->Count;
    Output->SaveToFile(ExtractFileDir(Application->ExeName) + "\\URL" + Name + "_clear.txt", TEncoding::UTF8);
 
    delete clearURL;
    Output->Clear();
    delete Output;
URL - исходный СтрингЛист с данными.
Так вот, этот код работает, но на больших объемах(500 000 строк и более) жутко тормозит(я так и не дождался его выполнения).
Помогите ускорить алгоритм обработки. Спасибо.
Вложения
Тип файла: zip URL_01.03.20161.txt.zip (5.65 Мб, 8 просмотров)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
13.03.2016, 13:19
Ответы с готовыми решениями:

Ускорить алгоритм
Есть код который сохраняет строку из StringList в 2-ой StringList, если этой строки нет в 3-ий StringList ... unsigned __stdcall OST(...

Ускорить объединение двух стринггридов (алгоритм)
Привет всем. постараюсь объяснить суть вопроса. на сервере есть исполняемая программа типа база (список , координаты, и другие метки)...

Ускорить алгоритм удаления одного списка из другого
Здравствуйте. Есть два списка : один на 181093 строк другой на 80000. Нужно удалить один список из другого. Моя реализация: ...

5
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33371 / 21497 / 8234
Регистрация: 22.10.2011
Сообщений: 36,893
Записей в блоге: 12
13.03.2016, 13:21
Файл с данными прикрепи, хочется поэкспериментировать, есть кое-какая идея...
0
191 / 52 / 19
Регистрация: 18.02.2013
Сообщений: 508
Записей в блоге: 9
13.03.2016, 13:24  [ТС]
Файл в аттаче.
0
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33371 / 21497 / 8234
Регистрация: 22.10.2011
Сообщений: 36,893
Записей в блоге: 12
13.03.2016, 14:08
Лучший ответ Сообщение было отмечено Gdasar как решение

Решение

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
class TFastURL : public Classes::TStringList
{
private:
    TRegExpr *re;
public:
    virtual int __fastcall Add(const UnicodeString S)
    {
        int Result = -1;
        if(re->Exec(S))
        {
        String s = re->Match[0];
        Result = Classes::TStringList::Add(s);
        }
        return Result;
    }
 
    __fastcall TFastURL(void) : TStringList()
    {
        Sorted = true;
        Duplicates = dupIgnore;
        WriteBOM = false;
        re = new TRegExpr();
        re->Expression = _T("^http(s)?://.*?/");
    }
    __fastcall virtual ~TFastURL()
    {
        delete re;
    }
};
 
 
void __fastcall TForm1::Button62Click(TObject *Sender)
{
    // ...
    std::auto_ptr<TStringList> URL(new TStringList);
    URL->LoadFromFile("D:\\test\\URL_01.03.20161.txt");
 
    std::auto_ptr<TFastURL> Output(new TFastURL);
    for(int i = 0; i < URL->Count; i++) Output->Add(URL->Strings[i]);
    Output->SaveToFile(ExtractFileDir(Application->ExeName) + "\\URL" + Name + "_clear.txt", TEncoding::UTF8);
}
меньше 2-х секунд на твоем файле. Достаточная скорость?
2
191 / 52 / 19
Регистрация: 18.02.2013
Сообщений: 508
Записей в блоге: 9
13.03.2016, 16:06  [ТС]
Цитата Сообщение от volvo Посмотреть сообщение
меньше 2-х секунд


Я вчера более часа ждал(так и не дождался), а тут 2 секунды.

Добавлено через 1 час 28 минут
Переписал свой код:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
    TRegExpr *clearURL = new TRegExpr();
    int a = DateTimeToUnix(Now());
    TStringList *Output = new TStringList();
    Output->WriteBOM = false;
    Output->Sorted = true;
    Output->Duplicates = System::Classes::TDuplicates::dupIgnore;
    clearURL->Expression = _T("^http(s)?://.*?/");
    clearURL->Compile();
    for(int i = 0; i < URL->Count; i++)
    {
        if(clearURL->Exec(URL->Strings[i]))
        {
            Output->Add(clearURL->Match[0]);
        }
    }
 
    Label4->Caption = Output->Count;
    Output->SaveToFile(ExtractFileDir(Application->ExeName) + "\\URL" + Name + "_clear.txt", TEncoding::UTF8);
    int b = DateTimeToUnix(Now());
    delete clearURL;
    Output->Clear();
    delete Output;
    Label6->Caption = b - a;
Отрабатывает за 3 секунды.
Далее я решил устроить нагрузочное тестирование для своего алгоритма и для Вашего.
Загрузил более 2 миллионов строчек и бац - Our of memory...
Файл для тестирования.
0
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33371 / 21497 / 8234
Регистрация: 22.10.2011
Сообщений: 36,893
Записей в блоге: 12
13.03.2016, 16:49
Лучший ответ Сообщение было отмечено Gdasar как решение

Решение

Естественно, с файлом размером больше 170МБ... Перепиши вот так:
C++
1
2
3
4
5
6
7
8
9
    std::auto_ptr<TFastURL>Output(new TFastURL);
    TStreamReader* reader =
        new TStreamReader(new TFileStream(fn, fmOpenRead), TEncoding::UTF8); // ну, или другую кодировку
    while (!reader->EndOfStream)
    {
        Output->Add(reader->ReadLine());
    }
    delete reader->BaseStream;
    delete reader;
Это будет чуть медленнее работать на предыдущем тесте (вместо 2-х секунд - около 5-ти), но зато на крайнем - вместо вылета за 25 секунд обрабатывается файл.
3
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
13.03.2016, 16:49
Помогаю со студенческими работами здесь

Ускорить алгоритм составления списка файлов данной директории
Здравствуйте. Есть папка с файлами(462166 штук), как мне быстро получить их список, а следовательно и их количество? Вот, собственно,...

Алгоритм шифрования DES (необходимо ускорить любым доступным способом)
Есть алгоритм шифрования дес, он работает но работает медленно ну или скажем так ... недостаточно быстро для того чтобы препод его принял....

Алгоритм для обработки данных частотного анализа
Честно говоря я сомневаюсь, что писать нужно сюда, но к экспертам меня не пускают)) Сам я далеко не эксперт! Очень надеюсь на ваше...

Алгоритм обработки фотографий камеры 360 градусов
Ребят есть ли какой код поясняющий принцип обработки этой камерой фотографий и предствлении их в формате 360 градусов или может кто...

Придумать и реализовать алгоритм шифрования текста (использовать функции обработки символов и строк)
5)Придумать и реализовать алгоритм шифрования текста (использовать функции обработки символов и строк).


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и источниками (напряжения, ЭДС и тока). Найти токи и напряжения во всех элементах. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru