Форум программистов, компьютерный форум, киберфорум
Базы данных
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.80/5: Рейтинг темы: голосов - 5, средняя оценка - 4.80
0 / 0 / 0
Регистрация: 19.11.2012
Сообщений: 114

Дедупликация, компрессия и I/O Size

10.05.2018, 15:18. Показов 1056. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Доброго времени суток! Есть задание, по которому одна высоконагруженная база данных используется для ведения складского учёта. Больше никаких вводных не дано. Для этой базы данных на СХД надо выбрать размер одного запроса он может быть 4 KB, 8 KB, 16 KB, 32 KB, 64 KB, or > 64 KB и использовать ли дедупликацию и компрессию.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
10.05.2018, 15:18
Ответы с готовыми решениями:

Ошибка: firebird Size Mismatch - Field GROUP size is too small for data
Возникла проблема, пишет Size Mismatch - Field FULL_ADR size is too small for data ошибку, которой не было, пока не заполнил Таблицу бд...

error ROM file size does not match existing BIOS size
Добрый день! Так же Foxconn H61MX, пробовал прошить через программу FOX LiveUpdate указывая путь на скаченный файл (.ROM) из архива...

Заполнить квадратную матрицу змейкой по диагонали, начиная с элемента matrix[size-1][size-1]
Требуется написать программу, которая заполняет массив размерности n*n по заданному правилу: 25 23 22 16 15 24 ...

5
Модератор
Эксперт MS Access
 Аватар для shanemac51
12231 / 5078 / 814
Регистрация: 07.08.2010
Сообщений: 14,937
Записей в блоге: 4
10.05.2018, 16:04
впервые вижу такое понятие
Википедия
Дедупликация (также дедубликация; от лат. deduplicatio — устранение дубликатов) — специализированный метод сжатия массива данных, использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования дискового пространства систем хранения данных, однако может применяться и при сетевом обмене данных для сокращения объема передаваемой информации.

В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные элементы информации фиксированного размера (англ. chunks). По мере выполнения анализа сравниваются все новые и новые элементы. При выявлении дублирующегося элемента, он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся элементов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён.

Однако дедупликацию не стоит путать с более традиционными алгоритмами сжатия, например LZ77 или LZO. Эти алгоритмы производят поиск в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), тогда как алгоритм дедупликации производит поиск копий по огромному массиву данных.
0
476 / 239 / 114
Регистрация: 12.05.2016
Сообщений: 647
10.05.2018, 21:08
Понимаете в чем дело. Сто процентов, что никто от вас не ждет точного ответа на поставленный вопрос.
А ждут от вас (скорее всего) размышления на тему, каким образом эта база может использоваться (почему она высоконагруженная), каким может быть профиль использования СХД в том или ином режиме, и как зависит размер запрашиваемого пакета от режима использования СХД. Зачем вообще нужна дедупликация, когда её оправдано применять, а когда крайне противопоказано, ваши предположения о пропусконой способности канала между базой и СХД и т.д. и т.п.

Поэтому если вам ответят, что надо выбрать запрос размером 8Kb без дедупликации и компресии, то этот ответ вам ничего не даст абсолютно
0
0 / 0 / 0
Регистрация: 19.11.2012
Сообщений: 114
11.05.2018, 15:54  [ТС]
Да нет, дело как раз таки в том, что я настраиваю СХД и застрял именно на этапе, в котором мне нужно определить этот параметр. Вообще если так посмотреть, то компрессию и дедубликацию можно использовать абсолютно везде? Или у них есть какие-либо минусы? Вроде сокращение объема данных это всегда хорошо.
0
476 / 239 / 114
Регистрация: 12.05.2016
Сообщений: 647
11.05.2018, 21:55
По моему опыту дедупликация катастрофически снижает скорость записи на дисковый массив.
Поэтому для ОНЛАЙН данных (база) я бы её включать не стал.

Далее.
Если используется любое шифрование (базой данных) или шифрованные тома - то в дедупликации нет смысла, т.к. в данных практически тупо не будет повторяющихся частей, а работа по хешированию и их поиску производиться всё равно будет.
Если у вас на дисках в основном архивы/видео/фото в джипегах - это и так уже предельно сжатые данные. Дедупликация срабатывает только если файлы повторяться начинают.
Если у вас база Oracle - то её файлы и архивлоги тоже плохо дедуплицируются, т.к. оракл имеет свои внутренние механизмы.

Дедупликация нормальна, например, для бэкапов, и то там куча подводных камней в виде скорости бэкапа.
Если вам надо забэкапить 100 Тб базу - то с дедупликацией вы будете неделю бэкап делать.

Размер блока должен как-то коррелировать с размером блока в файлах БАЗЫ. Иначе за один запрос у вас база будет либо перечитывать, либо недочитывать = неэффективно тратиться пропускная способность канала до СХД.

Кароче, без анализа прикладной области (что за база, какой размер базы, какой размер блока в базе, скорость прироста в сутки, объем запросов, количество пользователей, частота отчетности в базе) проще плюнуть в потолок и сказать "ну давайте вот так возьмем".
1
0 / 0 / 0
Регистрация: 19.11.2012
Сообщений: 114
12.05.2018, 01:31  [ТС]
Про дедупликацию я понял. А что с компрессией?
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
12.05.2018, 01:31
Помогаю со студенческими работами здесь

Size suffix and destination or source size do not match
Добрый день, возникла проблема. Говорю сразу в ассемблере ничего не понимаю, в гугле нашел только одну ссылку на свою проблему. Код пишу в...

Fetch size and batch size в запросах sql
Добрый день! Вопрос вот какой, я выполняю batch insert из одной таблицы в другую таблицу через java. Использую preparedStatement....

Что означает запись типа template<typename _Ty, size_t size> void foo(_Ty(&param)[size])?
Что означает такая запись(какой тип передается, что-то вроде ссылки на массив или что-нибудь ещё?): &lt;typename _Ty, size_t size&gt; ...

Runtime size и ROM size
Добрый вечер, форумчане! Не помогает ни переводчик, ни гугл.. Что обозначает 1)Runtime Size и 2)ROM size? 1) размер времени...

#1118 - Row size too large. The maximum row size for the used table type, not counting BLOBs, is 8126. You have to change some columns to TEXT or BLOB
При внесении данных в БД возникла ошибка.Ни как не могу заполнить таблицу. Помогите пожалуйста!


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru