Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 4.68/34: Рейтинг темы: голосов - 34, средняя оценка - 4.68
 Аватар для VLK
198 / 170 / 19
Регистрация: 05.05.2013
Сообщений: 1,236

Список для максимально быстрого поиска по нему

26.08.2015, 20:09. Показов 6927. Ответов 29
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Сейчас у меня есть два списка строк - List<string> один MainBase, второй TempBase, мне надо выбрать из TempBase все строчки, которых нет в MainBase, ну что бы потом их добавить в MainBase.
Программа работает в многопоточном режиме, много этих MainBase и они относительно большие, короче при относительном количестве потоков неплохо загружает процессор, я так подозреваю из за поиска.

Сейчас выборку я делаю так:
C#
1
2
3
4
5
List<string> NewList = (from item in TempBase
           let temp = item.Replace(SameText, "").Trim()
           where
           string.IsNullOrEmpty(temp) == false && MainBase.Contains(temp) == false
           select temp).ToList();
тут есть нюанс, перед поиском с переменной осуществляется некоторое действие и только после этого идет поиск:
C#
1
let temp = item.Replace(SameText, "").Trim()
Подскажите, что не так, как можно ускорить, может есть еще какой то список в котором поиск будет осуществляться быстрее (ну допустим в нем элементы будут не просто добавятся по очередной, а сортироваться как то так) и еще вопрос, на сколько я помню существует такая штука как бинарное дерево, есть в фреймворке готовый вариант?
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
26.08.2015, 20:09
Ответы с готовыми решениями:

Оптимизировать структуру таблицы для быстрого поиска
Здравствуйте. Имеется таблица контактов компаний с огромным количеством данных. Сами контакты хранятся в поле `value`. По этому же полю...

Хэш-таблица для быстрого поиска строки в массиве
Объясните, пожалуйста, как реализуется хэш-таблица. Например, есть двухмерный массив строк с большим количеством записей (строки состоят...

Отсортированный хэш-вектор бинарной схожести для быстрого поиска
Есть набор 64-х разрядных чисел, их может быть примерно 20 000 ... 40 000. Нужна какая-то хеш функция или что-то ещё, что бы эти 64-х...

29
TheGreatCornholio
 Аватар для Woldemar89
1255 / 733 / 285
Регистрация: 30.07.2015
Сообщений: 2,408
26.08.2015, 20:13
Попробуй склеить mainbase и tempbase и удалить дубликаты.
Удаление дубликатов с массива

Псевдокод:
mainbase += tempbase; //addrange там надо или типа того
mainbase.Distinct();
1
 Аватар для VLK
198 / 170 / 19
Регистрация: 05.05.2013
Сообщений: 1,236
26.08.2015, 20:21  [ТС]
Woldemar89, а как быть с:
C#
1
let temp = item.Replace(SameText, "").Trim()
короче когда надо перед тем как искать выполнить какие то действия с переменной, ведь "hello" и " hello" это разные строки.
0
TheGreatCornholio
 Аватар для Woldemar89
1255 / 733 / 285
Регистрация: 30.07.2015
Сообщений: 2,408
26.08.2015, 20:34
https://msdn.microsoft.com/ru-... .110).aspx

Distinct:
Возвращает различающиеся элементы последовательности, используя для сравнения значений компаратор проверки на равенство по умолчанию.

Метод Distinct перегружен несколько раз, одна из перегрузок позволяет передать как параметр функцию компаратор, - в ней выполняй действия и сравнивай.

Пример с компаратором в ссылке есть вроде.

Добавлено через 6 минут
Примерно что то типа того должно быть, если не ошибаюсь.
C#
1
var distinctValues = myCustomerList.Distinct((s1, s2) => s1.Trim() == s2);
1
 Аватар для VLK
198 / 170 / 19
Регистрация: 05.05.2013
Сообщений: 1,236
26.08.2015, 20:35  [ТС]
Спасибо, по ссылке я еще нашел SortedSet и HashSet, я протестирую List.Distinct, SortedSet и HashSet, посмотрим что из этого всего будет работать быстрее на том и остановлюсь, мне почему то кажется SortedSet
0
TheGreatCornholio
 Аватар для Woldemar89
1255 / 733 / 285
Регистрация: 30.07.2015
Сообщений: 2,408
26.08.2015, 20:45
Отпишись с кусочком кода, если не трудно, как сделаешь.
1
 Аватар для VLK
198 / 170 / 19
Регистрация: 05.05.2013
Сообщений: 1,236
26.08.2015, 21:41  [ТС]
Цитата Сообщение от Woldemar89 Посмотреть сообщение
C#
1
var distinctValues = myCustomerList.Distinct((s1, s2) => s1.Trim() == s2);
но вот это вроде как не должно пахать, мне надо сделать Trim и записать значение с уже выполнены Trim, а как я понимаю вот это
C#
1
(s1, s2) => s1.Trim() == s2
возвращает true/false и в зависимости от этого сохраняется значение в списке или нет, т.е. выходит у меня будет хранится значения без Trim
0
TheGreatCornholio
 Аватар для Woldemar89
1255 / 733 / 285
Регистрация: 30.07.2015
Сообщений: 2,408
26.08.2015, 21:45
Цитата Сообщение от VLK Посмотреть сообщение
но вот это вроде как не должно пахать, мне надо сделать Trim и записать значение с уже выполнены Trim
Ну, тогда, по моему, ничего не остается, как пробежаться по List, и сделать Trim() для каждой строки,
естественно бегать не обязательно в цикле, наверняка какая нибудь лямбда существует для этого.

Или попробуй перед добавлением в List строки, делать над ней Trim() итд.
1
 Аватар для VLK
198 / 170 / 19
Регистрация: 05.05.2013
Сообщений: 1,236
26.08.2015, 21:53  [ТС]
Цитата Сообщение от Woldemar89 Посмотреть сообщение
естественно бегать не обязательно в цикле, наверняка какая нибудь лямбда существует для этого.
а что под капотом лямбды разве не цикл? вроде как быстрее самого обыкновенного цикла ни чего нет.
0
TheGreatCornholio
 Аватар для Woldemar89
1255 / 733 / 285
Регистрация: 30.07.2015
Сообщений: 2,408
26.08.2015, 21:56
Цитата Сообщение от VLK Посмотреть сообщение
а что под капотом лямбды
Ну а как еще? Придется, так или иначе, в каком то месте, применять Trim, у тебя выхода нет.
1
 Аватар для VLK
198 / 170 / 19
Регистрация: 05.05.2013
Сообщений: 1,236
26.08.2015, 22:10  [ТС]
короче жесть, выискал 2 файла, один 532641 строк (основной) второй 150309
сделал тест, HashSet и SortedSet отработали, HashSet на много быстрее, а вот перебор как я показал в начале темы или тоже самое только через просто цикл тупит уже минут 5 и результата нет пока что.

Как будет выложу.
0
TheGreatCornholio
 Аватар для Woldemar89
1255 / 733 / 285
Регистрация: 30.07.2015
Сообщений: 2,408
26.08.2015, 22:14
Цитата Сообщение от VLK Посмотреть сообщение
тупит уже минут 5
Цитата Сообщение от VLK Посмотреть сообщение
Программа работает в многопоточном режиме
Тупить, прям конкретно, не должно, если в потоках делаешь и делаешь правильно.
В потоках счетчик запили, чтоб следить за процессом.
Цитата Сообщение от VLK Посмотреть сообщение
Как будет выложу.
Буду рад посмотреть.
1
 Аватар для VLK
198 / 170 / 19
Регистрация: 05.05.2013
Сообщений: 1,236
26.08.2015, 22:27  [ТС]
короче результаты странные и они меня шокировали, может я что то сделал не так?
Кликните здесь для просмотра всего текста
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
static void Tester()
{
    List<string> mainFile = new List<string>(); // 532641 строк
    List<string> secondFile = new List<string>(); // 150309 строк
    
    TestSortedSet(mainList, secondList);
    TestHashSet(mainList, secondList);
    TestLinq(mainList, secondList);
    TestFor(mainList, secondList);
    TestExt(mainList, secondList);
}
 
static void TestHashSet(List<string> mainFile, List<string> secondFile)
{
    Console.WriteLine("TestHashSet");
    Stopwatch sw = new Stopwatch();
    sw.Start();
    HashSet<string> hs = new HashSet<string>(mainFile);
    sw.Stop();
    Console.WriteLine("Размер списка: {0}, времени понадобилось: {1}", mainFile.Count, sw.ElapsedMilliseconds);
 
    sw.Reset();
    int countDo = mainFile.Count;
 
    sw.Start();
    for (int i = 0; i < secondFile.Count; i++) hs.Add(secondFile[i].Trim());
    sw.Stop();
 
    Console.WriteLine("Новый размер списка: {0}, новых элементов: {1}, времени понадобилось: {2}", hs.Count, (hs.Count - countDo), sw.ElapsedMilliseconds);
    Console.WriteLine();
}
 
 
static void TestSortedSet(List<string> mainFile, List<string> secondFile)
{
    Console.WriteLine("TestSortedSet");
    Stopwatch sw = new Stopwatch();
    sw.Start();
    SortedSet<string> ss = new SortedSet<string>(mainFile);
    sw.Stop();
    Console.WriteLine("Размер списка: {0}, времени понадобилось: {1}", mainFile.Count, sw.ElapsedMilliseconds);
 
    sw.Reset();
    int countDo = mainFile.Count;
 
    sw.Start();
    for (int i = 0; i < secondFile.Count; i++) ss.Add(secondFile[i].Trim());
    sw.Stop();
 
    Console.WriteLine("Новый размер списка: {0}, новых элементов: {1}, времени понадобилось: {2}", ss.Count, (ss.Count - countDo), sw.ElapsedMilliseconds);
    Console.WriteLine();
}
 
 
static void TestLinq(List<string> mainFile, List<string> secondFile)
{
    Console.WriteLine("TestLinq");
    Stopwatch sw = new Stopwatch();
 
    sw.Start();
    List<string> NewList = (from item in secondFile
                         let temp = item.Trim()
                         where
                            mainFile.Contains(temp) == false
                            select temp).ToList();
    sw.Stop();
 
    Console.WriteLine("Новых элементов: {0}, Времени понадобилось: {1}", NewList.Count, sw.ElapsedMilliseconds);
    Console.WriteLine();
}
 
 
static void TestFor(List<string> mainFile, List<string> secondFile)
{
    Console.WriteLine("TestFor");
    Stopwatch sw = new Stopwatch();
 
    List<string> NewList = new List<string>();
 
    sw.Start();
    for (int i = 0; i < secondFile.Count; i++)
    {
        string temp = secondFile[i].Trim();
        if (mainFile.Contains(temp) == false) NewList.Add(temp);
    }
    sw.Stop();
 
    Console.WriteLine("Новых элементов: {0}, Времени понадобилось: {1}", NewList.Count, sw.ElapsedMilliseconds);
    Console.WriteLine();
}
 
 
static void TestExt(List<string> mainFile, List<string> secondFile)
{
    Console.WriteLine("TestExt");
    Stopwatch sw = new Stopwatch();
 
    sw.Start();
    List<string> NewList = secondFile.Select(i => i.Trim()).Except(mainFile).ToList();
    sw.Stop();
 
    Console.WriteLine("Новых элементов: {0}, Времени понадобилось: {1}", NewList.Count, sw.ElapsedMilliseconds);
    Console.WriteLine();
}



TestSortedSet:
на добавление списка в SortedSet понадобилось 2630
на добавление новых, не повторяющихся элементов 674


TestHashSet:
на добавление списка в SortedSet понадобилось 101
на добавление новых, не повторяющихся элементов 69


TestLinq:
где 5 минут тупило, после чего я закрыл программу


TestFor:
где 5 минут тупило, после чего я закрыл программу


TestExt:
на получение новых элементов ушло 243

PS может я что то не так делал?
1
Заблокирован
26.08.2015, 22:36
Цитата Сообщение от VLK Посмотреть сообщение
короче результаты странные и они меня шокировали, может я что то сделал не так?
VLK, а что вас удивляет?

P.S. Методы не равнозначные.
0
 Аватар для VLK
198 / 170 / 19
Регистрация: 05.05.2013
Сообщений: 1,236
26.08.2015, 22:43  [ТС]
Цитата Сообщение от Ev_Hyper Посмотреть сообщение
VLK, а что вас удивляет?
ну то что TestSortedSet и TestHashSet обработали быстрее чем работа просто со списком (TestLinq и TestFor) это понятно, но вот почему TestExt отработал куда быстрее чем TestLinq и TestFor да и TestSortedSet, вот это меня удивило, я думал что у этих расширений под капотом находятся все те же циклы for, т.е. TestExt должно было работать дольше чем TestLinq и TestFor.

Так же вопрос к TestSortedSet, вроде как сортированный список но почему вставка новых элементов происходит медленнее чем у TestHashSet, ведь при сортировке поиск быстрее должен происходить (пузырчатый поиск если мне не изменяет память а не просто перебор)
0
TheGreatCornholio
 Аватар для Woldemar89
1255 / 733 / 285
Регистрация: 30.07.2015
Сообщений: 2,408
26.08.2015, 22:44
C#
1
2
3
 
List<string> mainFile = new List<string>(); // 532641 строк
List<string> secondFile = new List<string>(); // 150309 строк
TestFor:
C#
1
2
3
4
5
6
7
for (int i = 0; i < secondFile.Count; i++)             //это              
    {
        string temp = secondFile[i].Trim();
        if (mainFile.Contains(temp) == false) NewList.Add(temp); //плюс Contains, который наверняка использует цикл,
                                                                                       //может выполнить до 532641*150309 операций
                                                                                       //по факту, естественно меньше
    }

TestLinq:
C#
1
2
3
4
5
                         List<string> NewList = (from item in secondFile      //это
                         let temp = item.Trim()
                         where
                         mainFile.Contains(temp) == false           //плюс тот же Contains, сделают примерно также, как TestFor - кучу операций
                         select temp).ToList();


TestSortedSet - походу, сортирует на каждом шаге, поэтому медленней.

TestHashSet - походу, оптимально

TestExt - цикл не вложенный, как в TestFor или TestLinq, поэтому смотрится более менее.

Думаю, тут все правильно. Сомнения только в TestLinq, вдруг попроще можно.
0
Заблокирован
26.08.2015, 22:47
Цитата Сообщение от Woldemar89 Посмотреть сообщение
C#
1
2
3
4
5
List<string> NewList = (from item in secondFile //это
let temp = item.Trim()
where
mainFile.Contains(temp) == false //плюс тот же Contains, сделают примерно также, как TestFor - кучу операций
select temp).ToList();
=>
C#
1
secondFile.Where(x => !mainFile.Contains(x.Trim())).ToList();
2
TheGreatCornholio
 Аватар для Woldemar89
1255 / 733 / 285
Регистрация: 30.07.2015
Сообщений: 2,408
26.08.2015, 22:49
Цитата Сообщение от VLK Посмотреть сообщение
TestHashSet:
на добавление списка в SortedSet понадобилось 101
на добавление новых, не повторяющихся элементов 69
тут очепятка, вроде как.

Цитата Сообщение от Woldemar89 Посмотреть сообщение
Сомнения только в TestLinq, вдруг попроще можно.
Цитата Сообщение от Ev_Hyper Посмотреть сообщение
=>
Ну ТСу затестить бы надо
1
 Аватар для VLK
198 / 170 / 19
Регистрация: 05.05.2013
Сообщений: 1,236
26.08.2015, 22:52  [ТС]
Цитата Сообщение от Woldemar89 Посмотреть сообщение
тут очепятка, вроде как.
да, вечно какие то опечатки у меня.
0
Эксперт .NETАвтор FAQ
 Аватар для Storm23
10427 / 5157 / 1825
Регистрация: 11.01.2015
Сообщений: 6,226
Записей в блоге: 34
26.08.2015, 22:55
Лучший ответ Сообщение было отмечено VLK как решение

Решение

Цитата Сообщение от VLK Посмотреть сообщение
TestExt отработал куда быстрее чем TestLinq и TestFor да и TestSortedSet, вот это меня удивило, я думал что у этих расширений под капотом находятся все те же циклы for, т.е. TestExt должно было работать дольше чем TestLinq и TestFor.
Метод Except в Linq реализован через Hashset. Поэтому он и быстр.
Цитата Сообщение от VLK Посмотреть сообщение
Так же вопрос к TestSortedSet, вроде как сортированный список но почему вставка новых элементов происходит медленнее чем у TestHashSet, ведь при сортировке поиск быстрее должен происходить (пузырчатый поиск если мне не изменяет память а не просто перебор)
SortedSet это дерево, вставка O(log n), а Hashset это хеш-таблица, вставка O(1).

Почитайте про структуры данных и их отличия друг от друга. И тогда не придется делать "шокирующие открытия".
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
26.08.2015, 22:55
Помогаю со студенческими работами здесь

Разработка приложения для более быстрого, индексированного поиска файлов по заданному имени (хэширование)
Задача: разработать приложение для более быстрого, индексированного поиска файлов по заданному пользователем имени. Индексирование и поиск...

Алгоритм быстрого поиска
Ребят, помогите, кто чем может, для курсовой очень надо(( если есть какие-то предложения, пишите здесь алгоритм быстрого...

Конец "быстрого поиска"?
_http://ya.ru похоже доживает последние дни. :( Яша запускает новый сервис, который пока виден по этому адресу: _http://beta.ya.ru ...

Задача быстрого поиска
Предыстория. Когда-то давно была написана некая программа, которыя собирала статистику и хранила значения в виде пары (key1, key2)....

Метод быстрого последовательного поиска
Написать алгоритм поиска данных из файла согласному указанному методу (метод быстрого последовательного поиска)


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Основы отладки веб-приложений на SDL3 по USB и Wi-Fi, запущенных в браузере мобильных устройств
8Observer8 07.02.2026
Содержание блога Браузер Chrome имеет средства для отладки мобильных веб-приложений по USB. В этой пошаговой инструкции ограничимся работой с консолью. Вывод в консоль - это часть процесса. . .
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru