Форум программистов, компьютерный форум, киберфорум
PHP: базы данных
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/6: Рейтинг темы: голосов - 6, средняя оценка - 4.67
 Аватар для TrustNo1
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397

Как организовать базу данных словаря

07.03.2018, 14:06. Показов 2961. Ответов 9
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Стоит задача посчитать количество уникальных слов, которые использовали русские писатели и разделить их по частям речи.

В итоге должно получится так:
Глаголов 51264684 шт.
Прилагательных 56487787 шт.

Вопросы:
1) как организовать базу данных, чтобы поиск совпадений слов занимал минимальное количество времени?
2) как отличить словоформы? (например: слова "писатель" и "писателем" - это одно и тоже слово, два раза записывать его не имеет смысла, потому что нужны только уникальные слова).
3) может есть уже готовые базы данных со словами и словоформами (а еще лучше с синонимами), чтобы я мог посмотреть как у них организована структура? дайте ссылку, где можно скачать

_

Лучшее, что я смог придумать, это создать отдельную таблицу для каждой части речи, и в ней первая строка - это мог бы быть префикс в виде буквы, чтобы было проще искать.
Например так:

Таблица "Глаголы"
ID:1 | word_prefix: л | word: лететь | root: лет | wordforms: -еть, -ать, -ят

Первый индекс по word_prefix, второй по word. Должно же быстро работать?
Но в одной только книжке Война и Мир 500 тыс слов. А что будет, если я загружу в базу 1000 книжек? Поиск станет очень медленным.

Посоветуйте, пожалуйста, как организовать базу
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
07.03.2018, 14:06
Ответы с готовыми решениями:

Как правильно организовать базу данных
Пишу сайт-портфолио. Помогите как правильно организовать базу данных. Хочу сделать примерно так: главная страница - обзор всех видов...

Подскажите как правильно организовать базу данных
Есть таблица с информацией о работнике (id_работника и т.д.). Есть расписание, в котором я хочу указывать в какое время, какая команда...

Как можно организовать базу данных?
Здравствуйте, до меня все не доходит, как можно хранить вот такие данные Например: есть сотрудник и ему нужно давать задания, вот у него...

9
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,229
07.03.2018, 14:45
ставьте postgresql и юзайте их full text search
0
 Аватар для TrustNo1
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
07.03.2018, 16:16  [ТС]
Цитата Сообщение от полудух Посмотреть сообщение
ставьте postgresql и юзайте их full text search
А чем он отличается от такого же поиска в mysql или другой базы данных? объясните, пожалуйста
0
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,229
07.03.2018, 16:18
в mysql нет FTS
0
 Аватар для TrustNo1
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
07.03.2018, 16:22  [ТС]
Цитата Сообщение от полудух Посмотреть сообщение
в mysql нет FTS
а это что тогда? https://dev.mysql.com/doc/refm... earch.html
0
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,229
07.03.2018, 16:27
рукожопный закос
0
 Аватар для TrustNo1
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
07.03.2018, 16:30  [ТС]
Цитата Сообщение от полудух Посмотреть сообщение
рукожопный закос
Понятненько

А по структуре таблицы посоветуете что-нибудь? Например как хранить 1 млрд слов так, чтобы можно было за 0,01 сек найти нужное?
0
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,229
07.03.2018, 16:33
Для более точного определения количества слов в русском языке используются классические виды словарей. Чаще всего обращаются к таким видам собраний русскоязычных словоопределений: БАС – Большой Академический словарь насчитывает 131 257 слов. Словарь В. И. Даля – более 200 тысяч слов.
0
 Аватар для TrustNo1
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
07.03.2018, 16:48  [ТС]
Цитата Сообщение от полудух Посмотреть сообщение
Для более точного определения количества слов в русском языке используются классические виды словарей. Чаще всего обращаются к таким видам собраний русскоязычных словоопределений: БАС – Большой Академический словарь насчитывает 131 257 слов. Словарь В. И. Даля – более 200 тысяч слов.
Ну я же не об этом спрашивал

Я хочу знать как сделать максимально быстрый поиск по таблице, если слов будет 1 млрд
0
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,229
07.03.2018, 16:56
в таблицах принято мерить кол-вом строк, если вы говорите про слова, то ассоциации со словарём
делать как обычно: отдельную индексированную колонку под tsvector, индексы (GIN/GiST), разбивать на актуальные/неактуальные данные, анализировать explain analyze и править архитектуру/запросы
остальное сам FTS сделает
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
07.03.2018, 16:56
Помогаю со студенческими работами здесь

Организовать базу данных, как приложение без интерфейса Access
Доброго времени суток. Есть готовая база данных (с формами, запросами, отчетами). Есть эргономичная (удобная) форма. "Организовать...

Запись из файла в Базу данных (как организовать структура кода)
Из файла построчно считывается текст. Далее текст разбивается на отдельные значения и заносится в базу данных. Собственно саму проблему...

Организовать базу данных, как приложение без интерфейса Access
Создал базу данных. Теперь необходимо организовать базу данных, как приложение без интерфейса Access. Как это реализовать?

Подскажите как организовать базу данных из файла в котором есть иерархия
Привет! Есть файл xml c древовидной структурой. <?xml version="1.0" encoding="UTF-8"?> <menu> <child text="Привод,...

Где скачать базу данных англо-русских и русско-английских слов для словаря (приложения на Андроид)?
И как её засунуть в программу


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru