Http 2.0 и кодирование хаффманом (Huffman encoding/decoding)

@PastaCarbonara · Регистрация: 15.06.2017

Студворк — интернет-сервис помощи студентам

Пытаюсь сделать кодирование/декодирование для Http2.0 с помощью алгоритма хаффмана, в обычной версии этого алгоритма, нужно прочитать входные данные, посмотреть частоту использования каждого символа, построить соответствие символа частоте, отсортировать по частоте, взять две самые маленькие частоты, соединить их в дерево в корне будет сумма этих частот, в левой ветви будет первый символ, в правой второй, потом взять следующие по мере возрастания две, соединить в дерево, далее эти два дерева соединить в одно и тд, пока не построим 1 больше дерево, таким образом далее если мы ходим закодировать какой-либо символ, мы ищем его в дереве, и строим его код побитово, используя путь по дереву к данному символу, левая ветвь - 0, правая ветвь 1.
Но вот в Http2.0 как я понял используется заранее составленная таблица:
https://http2.github.io/http2-... ffman.code

Я сначала подумал что надо просто по этой таблице сверять символы и выписывать результирующие значения, то есть например:

'w' (119) |1111000 78 [ 7]

Я думал что если я хочу закодировать букву w, я просто выписываю 1111000 в результирующий символ. Однако когда я посмотрел на примеры:

8c | Literal value (len = 12)
| Huffman encoded:
f1e3 c2e5 f23a 6ba0 ab90 f4ff | .....:k.....
| Decoded:
| www.example.com
| -> :authority:
| www.example.com

В данном случае www.example.com кодируется как hex: f1e3 c2e5 f23a 6ba0 ab90 f4ff, и как видно тут несоответствует результат таблице. Первые три w в данном случае должно кодироваться в 1 байт f1, а по каким правилам оно собственно получается? Ну и остальные символы которые встречаются 1 раз тоже не соотвествуют таблице, например 'x' должен кодироваться как 7 бит 1111001 ( 0x79 )

@Black Fregat · 15.06.2017, 03:57

Хаффман рассматривает битовый поток, не зря там возле каждого символа длина в битах:

Code
1
2
3
4
f    1    e    3    c    2    e    5     ...
1111 0001 1110 0011 1100 0010 1110 0101 ...
1111000 1111000 1111000 010111 00101
w       w       w       .      e

@PastaCarbonara · 15.06.2017, 06:38 **[ТС]**

Да я тупанул, надо было считать биты ещё же. Тогда всё сходится, кроме последних символов, я накидал кодировщик, в итоге для строки

www.example.com получаю

f1e3 c2e5 f23a 6ba0 ab90 f480

В оригинале

f1e3 c2e5 f23a 6ba0 ab90 f4ff

Пробовал ещё строку из примера 'no-cache'

a8eb 1064 9ca0 у меня

в оригинале a8eb 1064 9cbf

При этом по битам всё сходится, но в самом конце я так понимаю положено оставшиеся нулевые биты добивать единичками ( паддинг ? ).

Собственно ещё такой вопрос, а каким образом это всё дело можно раскодировать? По идее где-то в пакетах хтпп 2.0 должна быть таблица для декодировки? Потому что я не совсем понимаю как вот это можно раскодировать зная только длинну исходного текста f1e3 c2e5 f23a 6ba0 ab90 f4ff, ну вот допустим я на стороне сервера читаю первый байт, 0xf1 ( *11110001‬) , я же не могу быть увереным точно что там закодировано w, а если например там закодирован первый кусок какого-нибудь другого символа? Или сервер просто читает побитово и как только находит первое совпадение декодирует букву?

@Black Fregat · 15.06.2017, 11:35

Код Хаффмана - префиксный, поэтому для декодирования строится дерево.
Идём от корня, на каждом нуле налево, на каждой единице направо.
Дошли до листа - символ найден, выводим и начинаем от корня

@PastaCarbonara · 15.06.2017, 23:19 **[ТС]**

Да это в обычном варианте, но ведь тут у нас нету данных для построения дерева. Есть только эта табличка, в которой просто соответствия без весов. Походу придётся декодить тупо сверяясь с таблицей

@Black Fregat · 16.06.2017, 19:04

Что мешает построить дерево по кодам?

Новые блоги и статьи Все статьи Все блоги /
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Programma_Boinc 28.12.2025 Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / ********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / ********/ gallery/ bKBkQFf Пост отсюда. . .	Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США. Programma_Boinc 26.12.2025 Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .	Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка. Programma_Boinc 23.12.2025 Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .	PhpStorm 2025.3: WSL Terminal всегда стартует в ~ and_y87 14.12.2025 PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .	Как объединить две одинаковые БД Access с разными данными VikBal 11.12.2025 Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук volvo 07.12.2025 Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro	Музыка, написанная Искусственным Интеллектом volvo 04.12.2025 Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .	От async/await к виртуальным потокам в Python IndentationError 23.11.2025 Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .	Поиск "дружественных имён" СОМ портов Argus19 22.11.2025 Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .	Сколько Государство потратило денег на меня, обеспечивая инсулином. Programma_Boinc 20.11.2025 Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .

@PastaCarbonara 0 / 0 / 0 Регистрация: 15.06.2017 Сообщений: 3

	Http 2.0 и кодирование хаффманом (Huffman encoding/decoding) 15.06.2017, 02:12. Показов 950. Ответов 5 Метки нет (Все метки) Пытаюсь сделать кодирование/декодирование для Http2.0 с помощью алгоритма хаффмана, в обычной версии этого алгоритма, нужно прочитать входные данные, посмотреть частоту использования каждого символа, построить соответствие символа частоте, отсортировать по частоте, взять две самые маленькие частоты, соединить их в дерево в корне будет сумма этих частот, в левой ветви будет первый символ, в правой второй, потом взять следующие по мере возрастания две, соединить в дерево, далее эти два дерева соединить в одно и тд, пока не построим 1 больше дерево, таким образом далее если мы ходим закодировать какой-либо символ, мы ищем его в дереве, и строим его код побитово, используя путь по дереву к данному символу, левая ветвь - 0, правая ветвь 1. Но вот в Http2.0 как я понял используется заранее составленная таблица: https://http2.github.io/http2-... ffman.code Я сначала подумал что надо просто по этой таблице сверять символы и выписывать результирующие значения, то есть например: 'w' (119) \|1111000 78 [ 7] Я думал что если я хочу закодировать букву w, я просто выписываю 1111000 в результирующий символ. Однако когда я посмотрел на примеры: 8c \| Literal value (len = 12) \| Huffman encoded: f1e3 c2e5 f23a 6ba0 ab90 f4ff \| .....:k..... \| Decoded: \| www.example.com \| -> :authority: \| www.example.com В данном случае www.example.com кодируется как hex: f1e3 c2e5 f23a 6ba0 ab90 f4ff, и как видно тут несоответствует результат таблице. Первые три w в данном случае должно кодироваться в 1 байт f1, а по каким правилам оно собственно получается? Ну и остальные символы которые встречаются 1 раз тоже не соотвествуют таблице, например 'x' должен кодироваться как 7 бит 1111001 ( 0x79 ) 0

@PastaCarbonara 0 / 0 / 0 Регистрация: 15.06.2017 Сообщений: 3
	15.06.2017, 06:38 [ТС]
	Да я тупанул, надо было считать биты ещё же. Тогда всё сходится, кроме последних символов, я накидал кодировщик, в итоге для строки www.example.com получаю f1e3 c2e5 f23a 6ba0 ab90 f480 В оригинале f1e3 c2e5 f23a 6ba0 ab90 f4ff Пробовал ещё строку из примера 'no-cache' a8eb 1064 9ca0 у меня в оригинале a8eb 1064 9cbf При этом по битам всё сходится, но в самом конце я так понимаю положено оставшиеся нулевые биты добивать единичками ( паддинг ? ). Собственно ещё такой вопрос, а каким образом это всё дело можно раскодировать? По идее где-то в пакетах хтпп 2.0 должна быть таблица для декодировки? Потому что я не совсем понимаю как вот это можно раскодировать зная только длинну исходного текста f1e3 c2e5 f23a 6ba0 ab90 f4ff, ну вот допустим я на стороне сервера читаю первый байт, 0xf1 ( *11110001‬) , я же не могу быть увереным точно что там закодировано w, а если например там закодирован первый кусок какого-нибудь другого символа? Или сервер просто читает побитово и как только находит первое совпадение декодирует букву? 0

@Black Fregat Фрилансер 3709 / 2082 / 567 Регистрация: 31.05.2009 Сообщений: 6,683
	15.06.2017, 11:35
	Код Хаффмана - префиксный, поэтому для декодирования строится дерево. Идём от корня, на каждом нуле налево, на каждой единице направо. Дошли до листа - символ найден, выводим и начинаем от корня 0

@PastaCarbonara 0 / 0 / 0 Регистрация: 15.06.2017 Сообщений: 3
	15.06.2017, 23:19 [ТС]
	Да это в обычном варианте, но ведь тут у нас нету данных для построения дерева. Есть только эта табличка, в которой просто соответствия без весов. Походу придётся декодить тупо сверяясь с таблицей 0

@Black Fregat Фрилансер 3709 / 2082 / 567 Регистрация: 31.05.2009 Сообщений: 6,683
	16.06.2017, 19:04
	Что мешает построить дерево по кодам? 0