Форум программистов, компьютерный форум, киберфорум
Java: Базы данных
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/6: Рейтинг темы: голосов - 6, средняя оценка - 5.00
6 / 5 / 0
Регистрация: 28.09.2010
Сообщений: 366
1

Как работать с большой базой данных?

23.11.2018, 14:40. Показов 1144. Ответов 6
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Добрый день.
Бэк java+spring.
БД hbase через apache phoenix.
В базе 10млн записей.
С фронта приходит 10.000 идентификаторов записей (только для примера, по факту может быть 100.000 или больше).
Надо проверить есть ли запись в базе.
Сейчас реализация такова, что сначала в лист джавы вытаскиваются все записи, и потом идет проверка по листу. Это занимает огромное количество времени из-за работы с hbase через phoenix. По факту больше 10 минут ( только чтобы вытащить все записи в лист).
Подскажите пожалуйста как подобную работу оптимизировать. Спасибо.
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
23.11.2018, 14:40
Ответы с готовыми решениями:

Как работать с базой данных?
Что можете посоветовать для работы с БД какой нибудь класс или библиотеку. Есть String...

Многопользовательское приложение, как работать с базой данных
Всем привет. Вопрос таков, есть приложение, организовано только под одного пользователя, т.е. при...

Как работать с базой данных?
Мне нужно по кнопке добавлять или удалять данные из базы данных. Работаю с Access, так как больше...

Как работать c базой данных?
Здравствуйте! Очень сильна нужна Ваша помощь. Не буду ходить вокруг да около мне дали вот такое...

6
Am I evil? Yes, I am!
Эксперт PythonЭксперт Java
17566 / 10320 / 2819
Регистрация: 21.10.2017
Сообщений: 22,375
23.11.2018, 16:34 2
Цитата Сообщение от florgas Посмотреть сообщение
проверить есть ли запись в базе
Цитата Сообщение от florgas Посмотреть сообщение
сначала в лист джавы вытаскиваются все записи
Зачем все вытаскивать? У JpaRepository есть метод boolean existsBy...
0
Эксперт функциональных языков программированияЭксперт Java
4486 / 2721 / 485
Регистрация: 28.04.2012
Сообщений: 8,589
23.11.2018, 17:22 3
Цитата Сообщение от florgas Посмотреть сообщение
БД hbase через apache phoenix.
В базе 10млн записей.
С фронта приходит 10.000 идентификаторов записей (только для примера, по факту может быть 100.000 или больше).
Надо проверить есть ли запись в базе.
Сейчас реализация такова, что сначала в лист джавы вытаскиваются все записи, и потом идет проверка по листу. Это занимает огромное количество времени из-за работы с hbase через phoenix. По факту больше 10 минут ( только чтобы вытащить все записи в лист).
Подскажите пожалуйста как подобную работу оптимизировать. Спасибо.
Насколько я знаю про HBase и подобные БД, они медленно работают с такими операциям как «вытащить все записи», поэтому может оказаться эффективней вытаскивать записи по имеющимся идентификаторам. Наверняка это можно делать не по одному запросу на каждую запись, а пачками (batch get), по несколько идентификаторов за раз. Или, если идентификаторы упорядочены, использовать scan.

Добавлено через 5 минут
Ты же не будешь вытаскивать все записи, когда в базе их будет не 10млн, а 10млрд или 10трлн?
0
Эксперт Java
3639 / 2971 / 918
Регистрация: 05.07.2013
Сообщений: 14,220
23.11.2018, 18:41 4
select ... where id in (лист, который приходит)
0
6 / 5 / 0
Регистрация: 28.09.2010
Сообщений: 366
23.11.2018, 23:40  [ТС] 5
Ну одно сделать один объемный запрос к базе, а другое сделать 10.000 запросов к базе.
Каковы результаты с точки зрения оптимизации?
0
Эксперт функциональных языков программированияЭксперт Java
4486 / 2721 / 485
Регистрация: 28.04.2012
Сообщений: 8,589
23.11.2018, 23:51 6
Цитата Сообщение от florgas Посмотреть сообщение
Ну одно сделать один объемный запрос к базе, а другое сделать 10.000 запросов к базе.
Да, это разные дела. HBase и Cassandra, например, плохо и медленно делают «один объёмный запрос», но хорошо много маленьких.

Цитата Сообщение от florgas Посмотреть сообщение
Каковы результаты с точки зрения оптимизации?
Результаты таковы: пишешь бенчмарки и меряешь.

Добавлено через 5 минут
Ну или попробуй так (обрати внимание на комментарий про setCaching), т.е., делаешь из своего списка ID'шников Set, потом проходишь по таблице, как описано по ссылке, и проверяешь, есть ли ключ из таблицы в твоём Set'е.
0
Эксперт Java
2398 / 2223 / 565
Регистрация: 28.12.2010
Сообщений: 8,672
24.11.2018, 11:53 7
Цитата Сообщение от florgas Посмотреть сообщение
в лист джавы вытаскиваются все записи, и потом идет проверка по листу.
Нет смысла вытаскивать все данные если интересует только факт наличия.

Самая простая оптимизация это вытаскивать только ids и затем сравнивать.

Если пойти дальше, можно подумать что в большинстве случаев записи скорее всего будут в БД чем будут отсутствовать, то есть при входных данных размера N, если разделить его на части N/M то с высокой вероятностью каждая часть из N/M будет полностью присутствовать в БД. Таким образом можно делать запрос на count(id) where id in(part_list) и сравнивать счетчик с размером листа. Если он одинаковый, проходим дальше, если нет, запускаем либо бинарный поиск (само собой должна быть сортировка по id) либо селектим все ids (тут можно померять что быстрее).


Цитата Сообщение от florgas Посмотреть сообщение
Ну одно сделать один объемный запрос к базе, а другое сделать 10.000 запросов к базе.
обычно один запрос лучше чем много т.к при каждом запросе есть доп. расходы связанные со взятием подключения из пула, синхронизацией и ещё всякой хренью.
0
24.11.2018, 11:53
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
24.11.2018, 11:53
Помогаю со студенческими работами здесь

Как работать с базой данных?
Привет всем! Увы-не знаю VBScript :( JScript знаю. Поэтому вопрос. Как на неи работать с базой...

Как работать с базой данных?
Подскажите пожалуйста как работать с базой данных в VB 2008, скиньте подробные и простые примеры...

Как подключиться и работать с базой данных
Доброго времени суток. У меня такая ситуация. Взял у преподавателя индивидуальное задание (Пытаюсь...

Как работать с базой данных MySQL
Как раюотать с базой даних MySQL.Помогите нубу,хотя да многие ответят "пиши сам код,если будут...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru