Аватар для TrustNo1
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397

Как организовать базу данных словаря

07.03.2018, 14:06. Показов 3010. Ответов 9
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Стоит задача посчитать количество уникальных слов, которые использовали русские писатели и разделить их по частям речи.

В итоге должно получится так:
Глаголов 51264684 шт.
Прилагательных 56487787 шт.

Вопросы:
1) как организовать базу данных, чтобы поиск совпадений слов занимал минимальное количество времени?
2) как отличить словоформы? (например: слова "писатель" и "писателем" - это одно и тоже слово, два раза записывать его не имеет смысла, потому что нужны только уникальные слова).
3) может есть уже готовые базы данных со словами и словоформами (а еще лучше с синонимами), чтобы я мог посмотреть как у них организована структура? дайте ссылку, где можно скачать

_

Лучшее, что я смог придумать, это создать отдельную таблицу для каждой части речи, и в ней первая строка - это мог бы быть префикс в виде буквы, чтобы было проще искать.
Например так:

Таблица "Глаголы"
ID:1 | word_prefix: л | word: лететь | root: лет | wordforms: -еть, -ать, -ят

Первый индекс по word_prefix, второй по word. Должно же быстро работать?
Но в одной только книжке Война и Мир 500 тыс слов. А что будет, если я загружу в базу 1000 книжек? Поиск станет очень медленным.

Посоветуйте, пожалуйста, как организовать базу
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
07.03.2018, 14:06
Ответы с готовыми решениями:

Как правильно организовать базу данных
Пишу сайт-портфолио. Помогите как правильно организовать базу данных. Хочу сделать примерно так: главная страница - обзор всех видов...

Подскажите как правильно организовать базу данных
Есть таблица с информацией о работнике (id_работника и т.д.). Есть расписание, в котором я хочу указывать в какое время, какая команда...

Как можно организовать базу данных?
Здравствуйте, до меня все не доходит, как можно хранить вот такие данные Например: есть сотрудник и ему нужно давать задания, вот у него...

9
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,230
07.03.2018, 14:45
ставьте postgresql и юзайте их full text search
0
 Аватар для TrustNo1
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
07.03.2018, 16:16  [ТС]
Цитата Сообщение от полудух Посмотреть сообщение
ставьте postgresql и юзайте их full text search
А чем он отличается от такого же поиска в mysql или другой базы данных? объясните, пожалуйста
0
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,230
07.03.2018, 16:18
в mysql нет FTS
0
 Аватар для TrustNo1
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
07.03.2018, 16:22  [ТС]
Цитата Сообщение от полудух Посмотреть сообщение
в mysql нет FTS
а это что тогда? https://dev.mysql.com/doc/refm... earch.html
0
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,230
07.03.2018, 16:27
рукожопный закос
0
 Аватар для TrustNo1
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
07.03.2018, 16:30  [ТС]
Цитата Сообщение от полудух Посмотреть сообщение
рукожопный закос
Понятненько

А по структуре таблицы посоветуете что-нибудь? Например как хранить 1 млрд слов так, чтобы можно было за 0,01 сек найти нужное?
0
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,230
07.03.2018, 16:33
Для более точного определения количества слов в русском языке используются классические виды словарей. Чаще всего обращаются к таким видам собраний русскоязычных словоопределений: БАС – Большой Академический словарь насчитывает 131 257 слов. Словарь В. И. Даля – более 200 тысяч слов.
0
 Аватар для TrustNo1
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
07.03.2018, 16:48  [ТС]
Цитата Сообщение от полудух Посмотреть сообщение
Для более точного определения количества слов в русском языке используются классические виды словарей. Чаще всего обращаются к таким видам собраний русскоязычных словоопределений: БАС – Большой Академический словарь насчитывает 131 257 слов. Словарь В. И. Даля – более 200 тысяч слов.
Ну я же не об этом спрашивал

Я хочу знать как сделать максимально быстрый поиск по таблице, если слов будет 1 млрд
0
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,230
07.03.2018, 16:56
в таблицах принято мерить кол-вом строк, если вы говорите про слова, то ассоциации со словарём
делать как обычно: отдельную индексированную колонку под tsvector, индексы (GIN/GiST), разбивать на актуальные/неактуальные данные, анализировать explain analyze и править архитектуру/запросы
остальное сам FTS сделает
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
07.03.2018, 16:56
Помогаю со студенческими работами здесь

Организовать базу данных, как приложение без интерфейса Access
Доброго времени суток. Есть готовая база данных (с формами, запросами, отчетами). Есть эргономичная (удобная) форма. "Организовать...

Запись из файла в Базу данных (как организовать структура кода)
Из файла построчно считывается текст. Далее текст разбивается на отдельные значения и заносится в базу данных. Собственно саму проблему...

Организовать базу данных, как приложение без интерфейса Access
Создал базу данных. Теперь необходимо организовать базу данных, как приложение без интерфейса Access. Как это реализовать?

Подскажите как организовать базу данных из файла в котором есть иерархия
Привет! Есть файл xml c древовидной структурой. <?xml version="1.0" encoding="UTF-8"?> <menu> <child text="Привод,...

Где скачать базу данных англо-русских и русско-английских слов для словаря (приложения на Андроид)?
И как её засунуть в программу


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Опции темы

Новые блоги и статьи
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её. Последовательность действий:. . .
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru