Как работать с большой базой данных?

@florgas · Регистрация: 28.09.2010

Студворк — интернет-сервис помощи студентам

Добрый день.
Бэк java+spring.
БД hbase через apache phoenix.
В базе 10млн записей.
С фронта приходит 10.000 идентификаторов записей (только для примера, по факту может быть 100.000 или больше).
Надо проверить есть ли запись в базе.
Сейчас реализация такова, что сначала в лист джавы вытаскиваются все записи, и потом идет проверка по листу. Это занимает огромное количество времени из-за работы с hbase через phoenix. По факту больше 10 минут ( только чтобы вытащить все записи в лист).
Подскажите пожалуйста как подобную работу оптимизировать. Спасибо.

@iSmokeJC · 23.11.2018, 16:34

Сообщение от florgas

проверить есть ли запись в базе

Сообщение от florgas

сначала в лист джавы вытаскиваются все записи

Зачем все вытаскивать? У JpaRepository есть метод boolean existsBy...

@korvin_ · 23.11.2018, 17:22

Сообщение от florgas

БД hbase через apache phoenix.
В базе 10млн записей.
С фронта приходит 10.000 идентификаторов записей (только для примера, по факту может быть 100.000 или больше).
Надо проверить есть ли запись в базе.
Сейчас реализация такова, что сначала в лист джавы вытаскиваются все записи, и потом идет проверка по листу. Это занимает огромное количество времени из-за работы с hbase через phoenix. По факту больше 10 минут ( только чтобы вытащить все записи в лист).
Подскажите пожалуйста как подобную работу оптимизировать. Спасибо.

Насколько я знаю про HBase и подобные БД, они медленно работают с такими операциям как «вытащить все записи», поэтому может оказаться эффективней вытаскивать записи по имеющимся идентификаторам. Наверняка это можно делать не по одному запросу на каждую запись, а пачками (batch get), по несколько идентификаторов за раз. Или, если идентификаторы упорядочены, использовать scan.

Добавлено через 5 минут
Ты же не будешь вытаскивать все записи, когда в базе их будет не 10млн, а 10млрд или 10трлн?

@xoraxax · 23.11.2018, 18:41

select ... where id in (лист, который приходит)

@florgas · 23.11.2018, 23:40 **[ТС]**

Ну одно сделать один объемный запрос к базе, а другое сделать 10.000 запросов к базе.
Каковы результаты с точки зрения оптимизации?

@korvin_ · 23.11.2018, 23:51

Сообщение от florgas

Ну одно сделать один объемный запрос к базе, а другое сделать 10.000 запросов к базе.

Да, это разные дела. HBase и Cassandra, например, плохо и медленно делают «один объёмный запрос», но хорошо много маленьких.

Сообщение от florgas

Каковы результаты с точки зрения оптимизации?

Результаты таковы: пишешь бенчмарки и меряешь.

Добавлено через 5 минут
Ну или попробуй так (обрати внимание на комментарий про setCaching), т.е., делаешь из своего списка ID'шников Set, потом проходишь по таблице, как описано по ссылке, и проверяешь, есть ли ключ из таблицы в твоём Set'е.

@KEKCoGEN · 24.11.2018, 11:53

Сообщение от florgas

в лист джавы вытаскиваются все записи, и потом идет проверка по листу.

Нет смысла вытаскивать все данные если интересует только факт наличия.

Самая простая оптимизация это вытаскивать только ids и затем сравнивать.

Если пойти дальше, можно подумать что в большинстве случаев записи скорее всего будут в БД чем будут отсутствовать, то есть при входных данных размера N, если разделить его на части N/M то с высокой вероятностью каждая часть из N/M будет полностью присутствовать в БД. Таким образом можно делать запрос на count(id) where id in(part_list) и сравнивать счетчик с размером листа. Если он одинаковый, проходим дальше, если нет, запускаем либо бинарный поиск (само собой должна быть сортировка по id) либо селектим все ids (тут можно померять что быстрее).

Сообщение от florgas

Ну одно сделать один объемный запрос к базе, а другое сделать 10.000 запросов к базе.

обычно один запрос лучше чем много т.к при каждом запросе есть доп. расходы связанные со взятием подключения из пула, синхронизацией и ещё всякой хренью.

Новые блоги и статьи Все статьи Все блоги /
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D 8Observer8 04.03.2026 Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .	SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий 8Observer8 02.03.2026 Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11680&d=1772460536 Одним из. . .	Реалии Hrethgir 01.03.2026 Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .	Ритм жизни kumehtar 27.02.2026 Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten 8Observer8 27.02.2026 Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .	SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами 8Observer8 20.02.2026 Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .	Конвертировать закладки radiotray-ng в m3u-плейлист damix 19.02.2026 Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .	Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI Eddy_Em 18.02.2026 Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .

@florgas 6 / 5 / 0 Регистрация: 28.09.2010 Сообщений: 366

	Как работать с большой базой данных? 23.11.2018, 14:40. Показов 1360. Ответов 6 Метки нет (Все метки) Добрый день. Бэк java+spring. БД hbase через apache phoenix. В базе 10млн записей. С фронта приходит 10.000 идентификаторов записей (только для примера, по факту может быть 100.000 или больше). Надо проверить есть ли запись в базе. Сейчас реализация такова, что сначала в лист джавы вытаскиваются все записи, и потом идет проверка по листу. Это занимает огромное количество времени из-за работы с hbase через phoenix. По факту больше 10 минут ( только чтобы вытащить все записи в лист). Подскажите пожалуйста как подобную работу оптимизировать. Спасибо. 0

@xoraxax 3639 / 2971 / 918 Регистрация: 05.07.2013 Сообщений: 14,220
	23.11.2018, 18:41
	select ... where id in (лист, который приходит) 0

@florgas 6 / 5 / 0 Регистрация: 28.09.2010 Сообщений: 366
	23.11.2018, 23:40 [ТС]
	Ну одно сделать один объемный запрос к базе, а другое сделать 10.000 запросов к базе. Каковы результаты с точки зрения оптимизации? 0