С Новым годом! Форум программистов, компьютерный форум, киберфорум
С++ для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.94/18: Рейтинг темы: голосов - 18, средняя оценка - 4.94
0 / 0 / 0
Регистрация: 30.05.2014
Сообщений: 32

Легкое сжатие данных (строки)

17.12.2014, 01:56. Показов 3302. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
есть строка. 30 символов. почти все цифры, есть пара латинских букв. нужно втиснуть эту строку в xs:long, т.е., вообще говоря, в строку из цифр длиной 18-19 символов.

понятно, что нельзя ужать 30 символов в 18 (да еще цифровых) без потерь, но наверняка можно с минимальными потерями - другими словами, с достаточной степенью соответствия.

знаю, есть масса алгоритмов сжатия, но как-то я растерялся. не подскажет ли кто, хоть в какую сторону смотреть, чтобы я не лопатил их все? мне бы хотя бы идею. закодировать уж не проблема.

спасибо заранее.

Добавлено через 1 час 7 минут
на этом же форуме нашел пример вычисления чек-суммы CRC16 и расширил его до 64 бит.

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
unsigned long long CRC16(int Count, char *Ptr)
{
    unsigned long long Data;
    long long CRC = 0xffffffffffffffff;
 
    while(Count) {  
        Data = *Ptr;
        CRC ^= Data;
        for(long long j = 0; j < 8; ++j) {
            if(CRC&1) {
                CRC >>= 1;
                CRC ^= 0xa001;
            } else
                CRC >>= 1;
        }
        ++Ptr;
        --Count;
    }
    return CRC;
}
вроде работает. и думаю я, можно ли использовать эту функцию для моих нужд?
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
17.12.2014, 01:56
Ответы с готовыми решениями:

Легкое задание на строки, найти слова верхнего и нижнего регистра С++
Нам дана строка, нужно найти в ней слова , которые все в верхнем регистре(ПРИВЕТ), в нижнем регистре(привет), в смешанном регистре(ПрИвЕт)....

Заменить многократное обращение к базе данных на что-то более легкое
Привет всем. Есть в базе таблица параметров, применяемых в зависимости от рейтинга пользователя. Рейтинг представлен дробным числом и...

Сжатие строки символов путем удаления пробелов из исходной строки
Помогите пожалуйста, нужен только текст кода программы ассемблера, а то с Англ.языком вообще плохо, да и вообще ассемблер не понимаю. ...

5
3176 / 1935 / 312
Регистрация: 27.08.2010
Сообщений: 5,131
Записей в блоге: 1
17.12.2014, 02:36
Так вам сжатие или хэш?

"почти все цифры, есть пара латинских букв" сжимаются в 4 bits per symbol.

CRC64 изобретать не надо, есть готовый.
0
0 / 0 / 0
Регистрация: 30.05.2014
Сообщений: 32
17.12.2014, 17:14  [ТС]
пожалуй, задача больше на хэш. говоря простым языком, мне нужна функция, которая бы генерировала 64-битное целое число по заданной строке. мне не нужно обратное восстановление (что, по идее, должно предусматривать сжатие), но на одинаковые строки должны генерироваться одинаковые числа.

числа должны быть достаточно уникальными. т.е. вероятность, что две разные строки дадут одинаковые числа должна быть достаточно мала.

я больше склоняюсь к алгоритму типа контрольной суммы. за ссылочку на CRC64 спасибо (я ее видел раньше, но тогда еще не созрел до правильности выбора алгоритма. мне нужна была идея).

по поводу "4 бит" не пойму, чем мне это поможет. я не смогу "ужать" строку, состоящую из цифр, до числа с меньшим количеством цифр.

к примеру, я могу обозначить (возьмем случай более тривиальный, когда входная строка состоит только из цифр) цифру в строке 4-мя битами. это значит, что 64 битами я могу обозначить всего 16 цифр. а мне нужно 30.
0
3176 / 1935 / 312
Регистрация: 27.08.2010
Сообщений: 5,131
Записей в блоге: 1
17.12.2014, 18:45
Цитата Сообщение от blackofe Посмотреть сообщение
достаточно уникальными
Несовместимые понятия.

Если набор строк известен и фиксирован, лучшим решением будет perfect hash. В противном случае, почти любой хэш, подходящего размера (CRC64, половина от MD5 итд.)

64 битами я могу обозначить всего 16 цифр. а мне нужно 30
Для 30 десятичных цифр потребуется 100 бит (30 * Log2(10) = 99.6578).
0
0 / 0 / 0
Регистрация: 30.05.2014
Сообщений: 32
18.12.2014, 20:10  [ТС]
Цитата Сообщение от gazlan Посмотреть сообщение
Несовместимые понятия.
ну, почему же?

"уникальный" значит, что такой же не встретится нигде и никогда.

"достаточно уникальный" значит, что такой же может встретиться, но с очень малой вероятностью.

алгоритмы всяких чек-сумм и хешей не гарантируют уникальность (собственно, они для этого не предназначены), но все же дают достаточно хороший разброс результатов для разных входных данных. в этом и смысл чек-сумм - надежда на то, что разные данные дадут разные чек-суммы.

Цитата Сообщение от gazlan Посмотреть сообщение
Если набор строк известен и фиксирован, лучшим решением будет perfect hash. В противном случае, почти любой хэш, подходящего размера (CRC64, половина от MD5 итд.)
остановился на половине MD5.

Цитата Сообщение от gazlan Посмотреть сообщение
Для 30 десятичных цифр потребуется 100 бит (30 * Log2(10) = 99.6578).
но потом эти 100 бит превращаются в десятичное число длиной в 31 знак (2^100), которое мне все-таки надо поместить в xs:long. т.е. я ничего не выигрываю, а даже проигрываю.
0
3176 / 1935 / 312
Регистрация: 27.08.2010
Сообщений: 5,131
Записей в блоге: 1
18.12.2014, 20:41
Цитата Сообщение от blackofe Посмотреть сообщение
достаточно уникальный

Не по теме:

"Уникальный", как и "тривиальный" - это "булевские переменные"


не гарантируют уникальность
Perfect hash, как уже сказано, гарантирует. Но не знаю, применим ли он для вашей задачи.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
18.12.2014, 20:41
Помогаю со студенческими работами здесь

Сжатие строки
Питон изучаю не так давно, сейчас прохожу один курс, столкнулся с таким заданием, где нужно сжать строку по типу: Ввод: aaaabbcaa ...

Сжатие строки
Пожалуйста помогите. Необходимо написать программу : &quot;Ввести с клавиатуры строку. Сжать строку, т.е. удалить пробелы и табуляции....

Сжатие строки
# 3 функции нужны для стандартизации программ потом (буду использовать в других программах) def ReadArrInteger(n): L = for i in...

Задача на сжатие строки
Добрый день, подскажите пожалуйста, как можно наиболее проще и наименьшим кодом решить данную задачу: Стандартное решение: message =...

Сжатие данных
Вот решил попробовать себя в сжатии данных :) Какую литературу можете посоветовать, или статью где бы были изложены всякие там методы...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её. Последовательность действий:. . .
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru