Форум программистов, компьютерный форум CyberForum.ru

Метод кодирования Хаффмана - C++

Восстановить пароль Регистрация
 
BlindDespair
0 / 0 / 0
Регистрация: 07.12.2013
Сообщений: 18
08.12.2013, 16:43     Метод кодирования Хаффмана #1
По курсовой работе задали реализовать метод кодирования Хаффмана, но как это сделать, я, к сожалению, сам додуматься не смог, поэтому начал разбираться с исходником, который нашел на этом форуме, я практически всё понял, но у меня возникло несколько вопросов. Вот код:
C
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <conio.h>
struct sym //структуры или записи
{
        unsigned char ch;
        float freq; //переменная, в которой будет хранится частота встречаемости символа
        char code[255];
        sym *left;
        sym *right;
};
 
union code
{
    unsigned char chhh;//переменная содержащая код для записи в сжатый файл
 
    struct byte
    {
        unsigned b1:1;
        unsigned b2:1;
        unsigned b3:1;
        unsigned b4:1;
        unsigned b5:1;
        unsigned b6:1;
        unsigned b7:1;
        unsigned b8:1;      
    }byte;
};
 
sym *makeTree(sym *psym[],int k)//рeкурсивная функция создания дерева Хофмана
{
    sym *temp;
    temp=(sym*)malloc(sizeof(sym));
    temp->freq=psym[k-1]->freq+psym[k-2]->freq;
    temp->code[0]=0;
    temp->left=psym[k-1];
    temp->right=psym[k-2];
 
    if(k==2)
        return temp;
    else //внесение в массив в нужное место элемента дерева Хофмана
    {
        for(int i=0;i<k;i++)
            if (temp->freq>psym[i]->freq)
            {   
                for(int j=k-1;j>i;j--)
                    psym[j]=psym[j-1];                                  
                
                psym[i]=temp;
                break;
            }       
    }
return makeTree(psym,k-1);
}
 
void makeCodes(sym *root)//Рекурсивная функция кодирования
{
    if(root->left)
    {
        strcpy(root->left->code,root->code);
        strcat(root->left->code,"0");
        makeCodes(root->left);
    }
    if(root->right)
    {
        strcpy(root->right->code,root->code);
        strcat(root->right->code,"1");
        makeCodes(root->right);
    }
}
 
 
int main ()
{
    FILE *fp,*fp2,*fp3; //указатели на файлы
    fp=fopen("input.txt","rb"); //открываем конкретный файл
    fp2=fopen("output.txt","wb");//открываем файл для записи сжатого файла
    fp3=fopen("teemp.txt","wb");//открываем файл для записи бинарного кода
 
    int chh;  // в эту переменную читается информация из файла
    int k=0; //счётчик количества различных букв, уникальных символов
    int kk=0; // счётчик количества всех знаков в файле
    int fsize2=0;//счётчик количества символов из 0 и 1 в output
    int ts;//размер хвоста файла (то, что не кратно 8 в промежуточном файле)
    int kolvo[256]={0};//инициализируем массив количества уникальных символов
    sym simbols[256]={0}; //инициализируем массив записей 
    sym *psym[256]; //инициализируем массив указателей на записи
    float summir=0;//сумма частот встречаемости
    int mes[8];//массив 0 и 1
    char j=0;//вспомогательная переменная
    
    //Обработка ошибок чтения файла
    if(fp==NULL)
    {
        puts("Файл не открыт!");
        return 0;
    }
 
    sym *symbols=(sym*)malloc(k*sizeof(sym));//создание динамического массива структур simbols
    sym **psum=(sym**)malloc(k*sizeof(sym*));//создание динамического массива указателей на simbols
    
    //Начинаем побайтно читать файл и составлять таблицу встречаемости
    while((chh=fgetc(fp))!=EOF)
    {       
        for(int j=0; j<256; j++)
        {
            if (chh==simbols[j].ch)
            {
                kolvo[j]++;
                kk++;               
                break;
            }
            if (simbols[j].ch==0)
            {
                simbols[j].ch=(unsigned char)chh;
                kolvo[j]=1;
                k++; kk++;
                break;
            }           
        }       
    }
 
    // Рассчёт частоты встречаемости
    for(int i=0;i<k;i++)
        simbols[i].freq=(float)kolvo[i]/kk;
    
    for(int i=0;i<k;i++) //в массив указателей заносим адреса записей
        psym[i]=&simbols[i];
    
//Сортировка по убыванию 
    sym tempp;//Буфер
    for(int i=1;i<k;i++)
        for(int j=0;j<k-1;j++)
            if(simbols[j].freq<simbols[j+1].freq)
            {
                tempp=simbols[j];
                simbols[j]=simbols[j+1];
                simbols[j+1]=tempp;
            }
 
for(int i=0;i<k;i++)
{
    summir+=simbols[i].freq;    
    printf("Номер символа в ASCII:%d  Частота встречаемости:%.2f\tУникальный символ:%c\t\n",simbols[i].ch,simbols[i].freq,psym[i]->ch);
}
    printf("\nКоличество символов в тексте:%d\tСумма частот встречаемости:%.2f\n",kk,summir);
    
    sym *root=makeTree(psym,k);//вызов функции создания дерева Хофмана
    
    makeCodes(root);//вызов функции получения кода
 
    rewind(fp);//возвращаем указатель в файле в начало файла
//в цикле читаем исходный файл, и записываем полученные в функциях коды в промежуточный файл
while((chh=fgetc(fp))!=EOF)
{
    for(int i=0;i<k;i++)
        if(chh==simbols[i].ch)
            fputs(simbols[i].code,fp2);
}
fclose(fp2);
 
//Заново открываем файл с бинарным кодом, но теперь для чтения
int i=0;
fp2=fopen("output.txt","rb");
//Считаем размер бинарного файла(количество символов в нём)
while((chh=fgetc(fp2))!=EOF)
        fsize2++;
 
ts=fsize2%8;//находим остаток, количество символов не кратных 8 (хвост)
 
//формируем заголовок сжатого файла через поля байтов
fwrite("Compressing",sizeof(char),24,fp3);//условная подпись
fwrite(&k,sizeof(int),1,fp3);//количество уникальных символов
fwrite(&ts,sizeof(int),1,fp3);//величина хвоста
//Записываем в сжатый файл таблицу встречаемости
for(i=0;i<k;i++)
{
    fwrite(&simbols[i].ch,sizeof(sym),1,fp3);
    fwrite(&simbols[i].freq,sizeof(sym),1,fp3);
}
 
rewind(fp2);//возвращаем указатель в output в начало файла
 
union code code1;//инициализируем переменную code1
//Читаем бинарный файл, занося последовательно каждые 8 элементов в массив для последующей побитовой обработки в объединении union
j=0;
for(int i=0;i<fsize2-ts;i++)
{
    mes[j]=fgetc(fp2);
    if(j==7)
    {       
        code1.byte.b1=mes[0]-'0';
        code1.byte.b2=mes[1]-'0';
        code1.byte.b3=mes[2]-'0';
        code1.byte.b4=mes[3]-'0';
        code1.byte.b5=mes[4]-'0';
        code1.byte.b6=mes[5]-'0';
        code1.byte.b7=mes[6]-'0';
        code1.byte.b8=mes[7]-'0';
        fputc(code1.chhh,fp3);
        j=0;
    }
    j++;    
}
//Записываем хвост
j=0;
for(int i=0;i<=ts;i++)
{
    mes[j]=fgetc(fp2);
    if(j==ts)
    {       
        code1.byte.b1=mes[0]-'0';
        code1.byte.b2=mes[1]-'0';
        code1.byte.b3=mes[2]-'0';
        code1.byte.b4=mes[3]-'0';
        code1.byte.b5=mes[4]-'0';
        code1.byte.b6=mes[5]-'0';
        code1.byte.b7=mes[6]-'0';
        code1.byte.b8=mes[7]-'0';
        fputc(code1.chhh,fp3);      
    }
    j++;    
}   
 
fclose(fp);//закрываем все открытые файлы
fclose(fp2);
fclose(fp3);
getch();
return 0;
}
Вопросы состоят в следующем: в файл teemp выводится какая-то абра-кадабра, вместо нормальных символов, я так подозреваю, что это кроется в функциях fwrite, но не знаю, что с ними можно сделать; для чего нужна структура byte в объединении union и что за непонятные вещи в ней происходят? И ещё проблема возникла с тем, что исходный файл input, в который я ввожу текст, например, ASADSAASDE занимает 10 байт, а output, в который программа записывает код, в данном случае 0110101110011101100, занимает 19 байт. А суть метода в сжатии данных, но тут почему-то наоборот получается. Пожалуйста, подскажите, что можно сделать.
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
08.12.2013, 16:43     Метод кодирования Хаффмана
Посмотрите здесь:

C++ программа кодирования текста
C++ реализация алгоритма кодирования
C++ Метод хаффмана (Помогите адаптировать под задание)
C++ Программа кодирования и декодирования
C++ Поцедура циклического кодирования
C++ Реализация арифметического кодирования
Реализация кодирования в JPEG2000 C++
Оформление кода на С++ (стандарты кодирования) C++

Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
Ответ Создать тему
Опции темы

Текущее время: 04:52. Часовой пояс GMT +3.
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2016, vBulletin Solutions, Inc.
Рейтинг@Mail.ru