Форум программистов, компьютерный форум, киберфорум
Java: Базы данных
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/6: Рейтинг темы: голосов - 6, средняя оценка - 5.00
 Аватар для florgas
6 / 5 / 0
Регистрация: 28.09.2010
Сообщений: 366

Как работать с большой базой данных?

23.11.2018, 14:40. Показов 1333. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день.
Бэк java+spring.
БД hbase через apache phoenix.
В базе 10млн записей.
С фронта приходит 10.000 идентификаторов записей (только для примера, по факту может быть 100.000 или больше).
Надо проверить есть ли запись в базе.
Сейчас реализация такова, что сначала в лист джавы вытаскиваются все записи, и потом идет проверка по листу. Это занимает огромное количество времени из-за работы с hbase через phoenix. По факту больше 10 минут ( только чтобы вытащить все записи в лист).
Подскажите пожалуйста как подобную работу оптимизировать. Спасибо.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
23.11.2018, 14:40
Ответы с готовыми решениями:

Как работать с базой данных?
Что можете посоветовать для работы с БД какой нибудь класс или библиотеку. Есть String name="Vasya", Age=18; Надо...

Многопользовательское приложение, как работать с базой данных
Всем привет. Вопрос таков, есть приложение, организовано только под одного пользователя, т.е. при включенной программе, второй раз ее не...

Как работать с базой данных?
Мне нужно по кнопке добавлять или удалять данные из базы данных. Работаю с Access, так как больше всего в ней разбираюсь. Но как...

6
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
23.11.2018, 16:34
Цитата Сообщение от florgas Посмотреть сообщение
проверить есть ли запись в базе
Цитата Сообщение от florgas Посмотреть сообщение
сначала в лист джавы вытаскиваются все записи
Зачем все вытаскивать? У JpaRepository есть метод boolean existsBy...
0
Эксперт функциональных языков программированияЭксперт Java
 Аватар для korvin_
4575 / 2774 / 491
Регистрация: 28.04.2012
Сообщений: 8,764
23.11.2018, 17:22
Цитата Сообщение от florgas Посмотреть сообщение
БД hbase через apache phoenix.
В базе 10млн записей.
С фронта приходит 10.000 идентификаторов записей (только для примера, по факту может быть 100.000 или больше).
Надо проверить есть ли запись в базе.
Сейчас реализация такова, что сначала в лист джавы вытаскиваются все записи, и потом идет проверка по листу. Это занимает огромное количество времени из-за работы с hbase через phoenix. По факту больше 10 минут ( только чтобы вытащить все записи в лист).
Подскажите пожалуйста как подобную работу оптимизировать. Спасибо.
Насколько я знаю про HBase и подобные БД, они медленно работают с такими операциям как «вытащить все записи», поэтому может оказаться эффективней вытаскивать записи по имеющимся идентификаторам. Наверняка это можно делать не по одному запросу на каждую запись, а пачками (batch get), по несколько идентификаторов за раз. Или, если идентификаторы упорядочены, использовать scan.

Добавлено через 5 минут
Ты же не будешь вытаскивать все записи, когда в базе их будет не 10млн, а 10млрд или 10трлн?
0
Эксперт Java
3639 / 2971 / 918
Регистрация: 05.07.2013
Сообщений: 14,220
23.11.2018, 18:41
select ... where id in (лист, который приходит)
0
 Аватар для florgas
6 / 5 / 0
Регистрация: 28.09.2010
Сообщений: 366
23.11.2018, 23:40  [ТС]
Ну одно сделать один объемный запрос к базе, а другое сделать 10.000 запросов к базе.
Каковы результаты с точки зрения оптимизации?
0
Эксперт функциональных языков программированияЭксперт Java
 Аватар для korvin_
4575 / 2774 / 491
Регистрация: 28.04.2012
Сообщений: 8,764
23.11.2018, 23:51
Цитата Сообщение от florgas Посмотреть сообщение
Ну одно сделать один объемный запрос к базе, а другое сделать 10.000 запросов к базе.
Да, это разные дела. HBase и Cassandra, например, плохо и медленно делают «один объёмный запрос», но хорошо много маленьких.

Цитата Сообщение от florgas Посмотреть сообщение
Каковы результаты с точки зрения оптимизации?
Результаты таковы: пишешь бенчмарки и меряешь.

Добавлено через 5 минут
Ну или попробуй так (обрати внимание на комментарий про setCaching), т.е., делаешь из своего списка ID'шников Set, потом проходишь по таблице, как описано по ссылке, и проверяешь, есть ли ключ из таблицы в твоём Set'е.
0
Эксперт Java
 Аватар для KEKCoGEN
2399 / 2224 / 565
Регистрация: 28.12.2010
Сообщений: 8,672
24.11.2018, 11:53
Цитата Сообщение от florgas Посмотреть сообщение
в лист джавы вытаскиваются все записи, и потом идет проверка по листу.
Нет смысла вытаскивать все данные если интересует только факт наличия.

Самая простая оптимизация это вытаскивать только ids и затем сравнивать.

Если пойти дальше, можно подумать что в большинстве случаев записи скорее всего будут в БД чем будут отсутствовать, то есть при входных данных размера N, если разделить его на части N/M то с высокой вероятностью каждая часть из N/M будет полностью присутствовать в БД. Таким образом можно делать запрос на count(id) where id in(part_list) и сравнивать счетчик с размером листа. Если он одинаковый, проходим дальше, если нет, запускаем либо бинарный поиск (само собой должна быть сортировка по id) либо селектим все ids (тут можно померять что быстрее).


Цитата Сообщение от florgas Посмотреть сообщение
Ну одно сделать один объемный запрос к базе, а другое сделать 10.000 запросов к базе.
обычно один запрос лучше чем много т.к при каждом запросе есть доп. расходы связанные со взятием подключения из пула, синхронизацией и ещё всякой хренью.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
24.11.2018, 11:53
Помогаю со студенческими работами здесь

Как работать c базой данных?
Здравствуйте! Очень сильна нужна Ваша помощь. Не буду ходить вокруг да около мне дали вот такое задание: Создайте с помощью MS...

Как работать с базой данных?
Привет всем! Увы-не знаю VBScript :( JScript знаю. Поэтому вопрос. Как на неи работать с базой данных. Через ОДБС понятно, а синтаксис?...

Как работать с базой данных?
Подскажите пожалуйста как работать с базой данных в VB 2008, скиньте подробные и простые примеры или источники, где все понятно объясняют.

Как подключиться и работать с базой данных
Доброго времени суток. У меня такая ситуация. Взял у преподавателя индивидуальное задание (Пытаюсь учиться больше самостоятельно). Оно...

Как работать с базой данных MySQL
Как раюотать с базой даних MySQL.Помогите нубу,хотя да многие ответят "пиши сам код,если будут ошибки отсилай сюда поможем",но я прошу...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Первый деплой
lagorue 16.01.2026
Не спеша развернул своё 1ое приложение в kubernetes. А дальше мне интересно создать 1фронтэнд приложения и 2 бэкэнд приложения развернуть 2 деплоя в кубере получится 2 сервиса и что-бы они. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит: токи, напряжения и их 1 и 2 производные при t = 0;. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Изучаю kubernetes
lagorue 13.01.2026
А пригодятся-ли мне знания kubernetes в России?
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru