Форум программистов, компьютерный форум, киберфорум
Java: Базы данных
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/6: Рейтинг темы: голосов - 6, средняя оценка - 5.00
 Аватар для florgas
6 / 5 / 0
Регистрация: 28.09.2010
Сообщений: 366

Как работать с большой базой данных?

23.11.2018, 14:40. Показов 1360. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день.
Бэк java+spring.
БД hbase через apache phoenix.
В базе 10млн записей.
С фронта приходит 10.000 идентификаторов записей (только для примера, по факту может быть 100.000 или больше).
Надо проверить есть ли запись в базе.
Сейчас реализация такова, что сначала в лист джавы вытаскиваются все записи, и потом идет проверка по листу. Это занимает огромное количество времени из-за работы с hbase через phoenix. По факту больше 10 минут ( только чтобы вытащить все записи в лист).
Подскажите пожалуйста как подобную работу оптимизировать. Спасибо.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
23.11.2018, 14:40
Ответы с готовыми решениями:

Как работать с базой данных?
Что можете посоветовать для работы с БД какой нибудь класс или библиотеку. Есть String name="Vasya", Age=18; Надо...

Многопользовательское приложение, как работать с базой данных
Всем привет. Вопрос таков, есть приложение, организовано только под одного пользователя, т.е. при включенной программе, второй раз ее не...

Как работать с базой данных?
Мне нужно по кнопке добавлять или удалять данные из базы данных. Работаю с Access, так как больше всего в ней разбираюсь. Но как...

6
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
23.11.2018, 16:34
Цитата Сообщение от florgas Посмотреть сообщение
проверить есть ли запись в базе
Цитата Сообщение от florgas Посмотреть сообщение
сначала в лист джавы вытаскиваются все записи
Зачем все вытаскивать? У JpaRepository есть метод boolean existsBy...
0
Эксперт функциональных языков программированияЭксперт Java
 Аватар для korvin_
4575 / 2774 / 491
Регистрация: 28.04.2012
Сообщений: 8,779
23.11.2018, 17:22
Цитата Сообщение от florgas Посмотреть сообщение
БД hbase через apache phoenix.
В базе 10млн записей.
С фронта приходит 10.000 идентификаторов записей (только для примера, по факту может быть 100.000 или больше).
Надо проверить есть ли запись в базе.
Сейчас реализация такова, что сначала в лист джавы вытаскиваются все записи, и потом идет проверка по листу. Это занимает огромное количество времени из-за работы с hbase через phoenix. По факту больше 10 минут ( только чтобы вытащить все записи в лист).
Подскажите пожалуйста как подобную работу оптимизировать. Спасибо.
Насколько я знаю про HBase и подобные БД, они медленно работают с такими операциям как «вытащить все записи», поэтому может оказаться эффективней вытаскивать записи по имеющимся идентификаторам. Наверняка это можно делать не по одному запросу на каждую запись, а пачками (batch get), по несколько идентификаторов за раз. Или, если идентификаторы упорядочены, использовать scan.

Добавлено через 5 минут
Ты же не будешь вытаскивать все записи, когда в базе их будет не 10млн, а 10млрд или 10трлн?
0
Эксперт Java
3639 / 2971 / 918
Регистрация: 05.07.2013
Сообщений: 14,220
23.11.2018, 18:41
select ... where id in (лист, который приходит)
0
 Аватар для florgas
6 / 5 / 0
Регистрация: 28.09.2010
Сообщений: 366
23.11.2018, 23:40  [ТС]
Ну одно сделать один объемный запрос к базе, а другое сделать 10.000 запросов к базе.
Каковы результаты с точки зрения оптимизации?
0
Эксперт функциональных языков программированияЭксперт Java
 Аватар для korvin_
4575 / 2774 / 491
Регистрация: 28.04.2012
Сообщений: 8,779
23.11.2018, 23:51
Цитата Сообщение от florgas Посмотреть сообщение
Ну одно сделать один объемный запрос к базе, а другое сделать 10.000 запросов к базе.
Да, это разные дела. HBase и Cassandra, например, плохо и медленно делают «один объёмный запрос», но хорошо много маленьких.

Цитата Сообщение от florgas Посмотреть сообщение
Каковы результаты с точки зрения оптимизации?
Результаты таковы: пишешь бенчмарки и меряешь.

Добавлено через 5 минут
Ну или попробуй так (обрати внимание на комментарий про setCaching), т.е., делаешь из своего списка ID'шников Set, потом проходишь по таблице, как описано по ссылке, и проверяешь, есть ли ключ из таблицы в твоём Set'е.
0
Эксперт Java
 Аватар для KEKCoGEN
2399 / 2224 / 565
Регистрация: 28.12.2010
Сообщений: 8,672
24.11.2018, 11:53
Цитата Сообщение от florgas Посмотреть сообщение
в лист джавы вытаскиваются все записи, и потом идет проверка по листу.
Нет смысла вытаскивать все данные если интересует только факт наличия.

Самая простая оптимизация это вытаскивать только ids и затем сравнивать.

Если пойти дальше, можно подумать что в большинстве случаев записи скорее всего будут в БД чем будут отсутствовать, то есть при входных данных размера N, если разделить его на части N/M то с высокой вероятностью каждая часть из N/M будет полностью присутствовать в БД. Таким образом можно делать запрос на count(id) where id in(part_list) и сравнивать счетчик с размером листа. Если он одинаковый, проходим дальше, если нет, запускаем либо бинарный поиск (само собой должна быть сортировка по id) либо селектим все ids (тут можно померять что быстрее).


Цитата Сообщение от florgas Посмотреть сообщение
Ну одно сделать один объемный запрос к базе, а другое сделать 10.000 запросов к базе.
обычно один запрос лучше чем много т.к при каждом запросе есть доп. расходы связанные со взятием подключения из пула, синхронизацией и ещё всякой хренью.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
24.11.2018, 11:53
Помогаю со студенческими работами здесь

Как работать c базой данных?
Здравствуйте! Очень сильна нужна Ваша помощь. Не буду ходить вокруг да около мне дали вот такое задание: Создайте с помощью MS...

Как работать с базой данных?
Привет всем! Увы-не знаю VBScript :( JScript знаю. Поэтому вопрос. Как на неи работать с базой данных. Через ОДБС понятно, а синтаксис?...

Как работать с базой данных?
Подскажите пожалуйста как работать с базой данных в VB 2008, скиньте подробные и простые примеры или источники, где все понятно объясняют.

Как подключиться и работать с базой данных
Доброго времени суток. У меня такая ситуация. Взял у преподавателя индивидуальное задание (Пытаюсь учиться больше самостоятельно). Оно...

Как работать с базой данных MySQL
Как раюотать с базой даних MySQL.Помогите нубу,хотя да многие ответят "пиши сам код,если будут ошибки отсилай сюда поможем",но я прошу...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11680&d=1772460536 Одним из. . .
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten
8Observer8 27.02.2026
Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru