Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.54/13: Рейтинг темы: голосов - 13, средняя оценка - 4.54
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173

Ускорить бинарный поиск по большому словарю

04.12.2013, 21:06. Показов 2507. Ответов 9
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день!

Словарь из 500 тысяч слов на русском языке. Словарь отсортирован, использую BinarySearch(), но хотелось бы еще повысить скорость. Подскажите, какие есть еще варианты? Например, будет ли полезно разбить словарь на два и искать в разных потоках?

Добавлено через 2 минуты
Важный момент - при каждом выходе из программы словарь обновляется, туда добавляются новые слова. То есть как-то индексировать затратно, потому что программа будет долго выгружаться или загружаться.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
04.12.2013, 21:06
Ответы с готовыми решениями:

Поиск по большому текстовому файлу
Имеется файл в 400 тысяч строк. В каждой строке содержится исходное слово и производные от него, в конце строки стоит ;. Например: ...

Поиск осмысленной фразы по словарю
Здравствуйте! В программировании новичок, не судите строго. Написал программу на c# для расшифровки предложения, закодированное кодом...

Не работает поиск по словарю
Привет, я создать для поиск словарь.. есть ничего не понял..:cry: он не работа поиск(( спасибо заранее вами... пожалуйста...

9
Master of Orion
Эксперт .NET
 Аватар для Psilon
6102 / 4958 / 905
Регистрация: 10.07.2011
Сообщений: 14,522
Записей в блоге: 5
04.12.2013, 22:12
Suppir, используй сразу сортированный словарь, по-моему класс SortedDictionary существует. Он как раз на дереве по-моему и реализован, поиск среди 500к элементов потребует прохода всего 19 элементов в худшем случае.
1
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173
05.12.2013, 14:47  [ТС]
ok, спасибо, попробую.

Добавлено через 1 час 25 минут
Значит, я проверил.

Если использовать простой List<string> отсортированный и бинарный поиск по нему, то скорость поиска получается в 2 раза выше, чем поиск по SortedDictionary.
0
Master of Orion
Эксперт .NET
 Аватар для Psilon
6102 / 4958 / 905
Регистрация: 10.07.2011
Сообщений: 14,522
Записей в блоге: 5
05.12.2013, 14:50
Suppir, если он сортирован, то конечно. Только вот как будете сортировать после каждой вставки?..
0
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173
05.12.2013, 15:10  [ТС]
Дело в том, что словарь огромный - 500 тыс. слов, а количество вставок маленькое - от 1 до 100 за сеанс. Поэтому вставки у меня хранятся в отдельном List<string>. И сначала поиск идет по вставкам, а потом - по основному словарю. При выходе из программы вставки вливаются в общий словарь.
0
 Аватар для m0nax
1274 / 975 / 113
Регистрация: 12.01.2010
Сообщений: 1,971
05.12.2013, 15:14
оч сомневаюсь что двоичный поиск у SortedDictionary внезапно стал медленней двоичного поиска у списка
кроме SortedDictionary есть еще Hashtable и Sortedlist

можно попробовать спец алгоритмы именно для слов/строк
http://en.wikipedia.org/wiki/Ternary_search_tree
0
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173
05.12.2013, 15:26  [ТС]
Цитата Сообщение от m0nax Посмотреть сообщение
оч сомневаюсь что двоичный поиск у SortedDictionary внезапно стал медленней двоичного поиска у списка
кроме SortedDictionary есть еще Hashtable и Sortedlist
Вот код для примера (тест):

C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.IO;
using System.Threading;
using System.Text;
using System.Security.Cryptography;
using System.Runtime.InteropServices;
using System.Text.RegularExpressions;
using System.Windows.Forms;
using System.Diagnostics;
 
 
namespace SortedDictionary
{
    public partial class Form1 : Form
    {
        SortedDictionary<string, int> SortedDic = new SortedDictionary<string, int>();
        List <string> Dic = new List<string>();
        string HomeDir = Path.GetDirectoryName(Application.ExecutablePath);
 
        List<string> toCheck = new List<string>();
 
        public Form1()
        {
            InitializeComponent();
 
            System.IO.StreamReader sr = new System.IO.StreamReader(HomeDir + "\\словарь.txt", Encoding.Default);
            string line;
            while ((line = sr.ReadLine()) != null)
            {
                SortedDic.Add(line, 1);
                Dic.Add(line);
            }
            Dic.Sort();
 
            sr.Close();
 
            toCheck.Add("ааа");
            toCheck.Add("маасква");
            toCheck.Add("яхта");
            toCheck.Add("золото");
            toCheck.Add("дело");
            toCheck.Add("яйца");
            toCheck.Add("мышь");
            toCheck.Add("семь");
            toCheck.Add("восемь");
            toCheck.Add("демять");
        }
 
        private void button1_Click(object sender, EventArgs e)
        {
            Stopwatch stopWatch = new Stopwatch();
            stopWatch.Start();
            for (int i = 1; i < 100000; i++)
            {
                i++;
 
                //бинарный поиск по обычному словарю (List)
                foreach (string word in toCheck)
                {
                    int x = Dic.BinarySearch(word);
                    if (x > 0)
                    {
 
                    }
                    else
                    {
                    }
                }
 
                //поиск по SortedDictionary
                //foreach (string word in toCheck)
                //{
                //    int x;
                //    if (SortedDic.TryGetValue(word, out x))
                //    {
                //        if (x == 1)
                //        {
 
                //        }
                //        else
                //        {
 
                //        }
                //    }
                //    else
                //    {
 
                //    }
                //}
            }
 
            stopWatch.Stop();
            TimeSpan ts = stopWatch.Elapsed;
 
            string elapsedTime = String.Format("{0:00}:{1:00}:{2:00}.{3:00}",
            ts.Hours, ts.Minutes, ts.Seconds,
            ts.Milliseconds / 10);
            MessageBox.Show(elapsedTime);
        }
    }
}

По этому коду бинарный поиск по List отрабатывает в 2,5 раза быстрее, чем поиск ключа по SortedDictionary. Правда, для SortedDictionary вставлена еще она маленькая проверка значения. Но не думаю, что она должна сильно тормозить.
0
Master of Orion
Эксперт .NET
 Аватар для Psilon
6102 / 4958 / 905
Регистрация: 10.07.2011
Сообщений: 14,522
Записей в блоге: 5
05.12.2013, 16:03
Suppir, коллекция каждая предназначена для своей цели. SortedDIctionary нужен, если у вас на 500к записей сотни тысяч операций вставки. А один Sort естественно будет быстрее...
0
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173
05.12.2013, 16:10  [ТС]
Ну да, я так примерно и понял, спасибо )
0
835 / 643 / 101
Регистрация: 20.08.2013
Сообщений: 2,524
06.12.2013, 18:06
Ещё есть SortedSet. А вообще, попробуй список заменить на массив.

Добавлено через 44 минуты
Цитата Сообщение от Suppir Посмотреть сообщение
Словарь из 500 тысяч слов на русском языке. Словарь отсортирован, использую BinarySearch(), но хотелось бы еще повысить скорость. Подскажите, какие есть еще варианты?
Использовать бор.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
06.12.2013, 18:06
Помогаю со студенческими работами здесь

Поиск по словарю
Есть словарь географических названий. Необходимо реализовать программу, которой на вход подается тексты, а на выходе выдает все слова...

Поиск по большому массиву данных
Люди, подскажите кто знает или может встречался с этим! Перечитала кучу всего, но конкретной инфы не нашла. Есть таблица с 2-мя полями:...

Поиск в тексте по словарю
Добрый день, подскажите пожалуйста как определить файл словаря (.txt желательно. слова заданны в файле по одному слову строке), чтобы искал...

Поиск в столбце по словарю
Добрый день. Дано 2 листа: &quot;данные&quot; и &quot;словарь&quot;. На листе &quot;данные&quot; в столбце T содержатся рукописные описания фин операций, нужно...

Поиск пароля по словарю
Уважаемые гуру с++! Помогите написать программу, какая загружает словарь в котором хранятся наиболее часто распространенные пароли затем. ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru