|
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
|
|
Как организовать базу данных словаря07.03.2018, 14:06. Показов 2961. Ответов 9
Метки нет (Все метки)
Стоит задача посчитать количество уникальных слов, которые использовали русские писатели и разделить их по частям речи.
В итоге должно получится так: Глаголов 51264684 шт. Прилагательных 56487787 шт. Вопросы: 1) как организовать базу данных, чтобы поиск совпадений слов занимал минимальное количество времени? 2) как отличить словоформы? (например: слова "писатель" и "писателем" - это одно и тоже слово, два раза записывать его не имеет смысла, потому что нужны только уникальные слова). 3) может есть уже готовые базы данных со словами и словоформами (а еще лучше с синонимами), чтобы я мог посмотреть как у них организована структура? дайте ссылку, где можно скачать _ Лучшее, что я смог придумать, это создать отдельную таблицу для каждой части речи, и в ней первая строка - это мог бы быть префикс в виде буквы, чтобы было проще искать. Например так: Таблица "Глаголы" ID:1 | word_prefix: л | word: лететь | root: лет | wordforms: -еть, -ать, -ят Первый индекс по word_prefix, второй по word. Должно же быстро работать? Но в одной только книжке Война и Мир 500 тыс слов. А что будет, если я загружу в базу 1000 книжек? Поиск станет очень медленным. Посоветуйте, пожалуйста, как организовать базу
0
|
|
| 07.03.2018, 14:06 | |
|
Ответы с готовыми решениями:
9
Как правильно организовать базу данных Подскажите как правильно организовать базу данных
|
|
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,229
|
|
| 07.03.2018, 14:45 | |
|
ставьте postgresql и юзайте их full text search
0
|
|
|
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
|
||
| 07.03.2018, 16:16 [ТС] | ||
0
|
||
|
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,229
|
|
| 07.03.2018, 16:18 | |
|
в mysql нет FTS
0
|
|
|
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
|
||
| 07.03.2018, 16:22 [ТС] | ||
|
0
|
||
|
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,229
|
|
| 07.03.2018, 16:27 | |
|
рукожопный закос
0
|
|
|
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
|
||
| 07.03.2018, 16:30 [ТС] | ||
![]() А по структуре таблицы посоветуете что-нибудь? Например как хранить 1 млрд слов так, чтобы можно было за 0,01 сек найти нужное?
0
|
||
|
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,229
|
|
| 07.03.2018, 16:33 | |
|
Для более точного определения количества слов в русском языке используются классические виды словарей. Чаще всего обращаются к таким видам собраний русскоязычных словоопределений: БАС – Большой Академический словарь насчитывает 131 257 слов. Словарь В. И. Даля – более 200 тысяч слов.
0
|
|
|
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
|
||
| 07.03.2018, 16:48 [ТС] | ||
|
Я хочу знать как сделать максимально быстрый поиск по таблице, если слов будет 1 млрд
0
|
||
|
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,229
|
|
| 07.03.2018, 16:56 | |
|
в таблицах принято мерить кол-вом строк, если вы говорите про слова, то ассоциации со словарём
делать как обычно: отдельную индексированную колонку под tsvector, индексы (GIN/GiST), разбивать на актуальные/неактуальные данные, анализировать explain analyze и править архитектуру/запросы остальное сам FTS сделает
0
|
|
| 07.03.2018, 16:56 | |
|
Помогаю со студенческими работами здесь
10
Организовать базу данных, как приложение без интерфейса Access Запись из файла в Базу данных (как организовать структура кода) Организовать базу данных, как приложение без интерфейса Access Подскажите как организовать базу данных из файла в котором есть иерархия Где скачать базу данных англо-русских и русско-английских слов для словаря (приложения на Андроид)? Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
||||
|
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Налог на собак: https:/ / **********/ gallery/ V06K53e
Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf
Пост отсюда. . .
|
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop?
Ниже её машинный перевод.
После долгих разбирательств я наконец-то вернула себе. . .
|
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод
Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод.
Thinkpad X220 Tablet —. . .
|
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта
Симптом:
После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
|
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
|
|
Новый ноутбук
volvo 07.12.2025
Всем привет.
По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне:
Ryzen 5 7533HS
64 Gb DDR5
1Tb NVMe
16" Full HD Display
Win11 Pro
|
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
|
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
|
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов
На странице:
https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/
нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
|
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов.
. . .
|