|
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
|
|
Как организовать базу данных словаря07.03.2018, 14:06. Показов 3010. Ответов 9
Метки нет (Все метки)
Стоит задача посчитать количество уникальных слов, которые использовали русские писатели и разделить их по частям речи.
В итоге должно получится так: Глаголов 51264684 шт. Прилагательных 56487787 шт. Вопросы: 1) как организовать базу данных, чтобы поиск совпадений слов занимал минимальное количество времени? 2) как отличить словоформы? (например: слова "писатель" и "писателем" - это одно и тоже слово, два раза записывать его не имеет смысла, потому что нужны только уникальные слова). 3) может есть уже готовые базы данных со словами и словоформами (а еще лучше с синонимами), чтобы я мог посмотреть как у них организована структура? дайте ссылку, где можно скачать _ Лучшее, что я смог придумать, это создать отдельную таблицу для каждой части речи, и в ней первая строка - это мог бы быть префикс в виде буквы, чтобы было проще искать. Например так: Таблица "Глаголы" ID:1 | word_prefix: л | word: лететь | root: лет | wordforms: -еть, -ать, -ят Первый индекс по word_prefix, второй по word. Должно же быстро работать? Но в одной только книжке Война и Мир 500 тыс слов. А что будет, если я загружу в базу 1000 книжек? Поиск станет очень медленным. Посоветуйте, пожалуйста, как организовать базу
0
|
|
| 07.03.2018, 14:06 | |
|
Ответы с готовыми решениями:
9
Как правильно организовать базу данных Подскажите как правильно организовать базу данных
|
|
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,230
|
|
| 07.03.2018, 14:45 | |
|
ставьте postgresql и юзайте их full text search
0
|
|
|
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
|
||
| 07.03.2018, 16:16 [ТС] | ||
0
|
||
|
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,230
|
|
| 07.03.2018, 16:18 | |
|
в mysql нет FTS
0
|
|
|
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
|
||
| 07.03.2018, 16:22 [ТС] | ||
|
0
|
||
|
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,230
|
|
| 07.03.2018, 16:27 | |
|
рукожопный закос
0
|
|
|
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
|
||
| 07.03.2018, 16:30 [ТС] | ||
![]() А по структуре таблицы посоветуете что-нибудь? Например как хранить 1 млрд слов так, чтобы можно было за 0,01 сек найти нужное?
0
|
||
|
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,230
|
|
| 07.03.2018, 16:33 | |
|
Для более точного определения количества слов в русском языке используются классические виды словарей. Чаще всего обращаются к таким видам собраний русскоязычных словоопределений: БАС – Большой Академический словарь насчитывает 131 257 слов. Словарь В. И. Даля – более 200 тысяч слов.
0
|
|
|
78 / 78 / 35
Регистрация: 08.09.2013
Сообщений: 397
|
||
| 07.03.2018, 16:48 [ТС] | ||
|
Я хочу знать как сделать максимально быстрый поиск по таблице, если слов будет 1 млрд
0
|
||
|
209 / 191 / 49
Регистрация: 15.03.2016
Сообщений: 1,230
|
|
| 07.03.2018, 16:56 | |
|
в таблицах принято мерить кол-вом строк, если вы говорите про слова, то ассоциации со словарём
делать как обычно: отдельную индексированную колонку под tsvector, индексы (GIN/GiST), разбивать на актуальные/неактуальные данные, анализировать explain analyze и править архитектуру/запросы остальное сам FTS сделает
0
|
|
| 07.03.2018, 16:56 | |
|
Помогаю со студенческими работами здесь
10
Организовать базу данных, как приложение без интерфейса Access Запись из файла в Базу данных (как организовать структура кода) Организовать базу данных, как приложение без интерфейса Access Подскажите как организовать базу данных из файла в котором есть иерархия Где скачать базу данных англо-русских и русско-английских слов для словаря (приложения на Андроид)? Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
| Опции темы | |
|
|
Новые блоги и статьи
|
|||
|
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/
O1rJuneU_ls
https:/ / vkvideo. ru/ video-115721503_456239114
|
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ВВЕДЕНИЕ
Введу сокращения:
аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
|
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi
ветка по-частям.
коммит Create переделка под биомассу. txt
вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
|
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ *
Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях.
Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её.
Последовательность действий:. . .
|
|
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
|
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение.
И на уровне агентов добавится между грибами или бактериями взаимодействий.
До того я пробовал подход через многомерные массивы,. . .
|
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Налог на собак: https:/ / **********/ gallery/ V06K53e
Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf
Пост отсюда. . .
|
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop?
Ниже её машинный перевод.
После долгих разбирательств я наконец-то вернула себе. . .
|