Форум программистов, компьютерный форум, киберфорум
Наши страницы
C++ Qt
Войти
Регистрация
Восстановить пароль
 
Рейтинг 5.00/13: Рейтинг темы: голосов - 13, средняя оценка - 5.00
KeyGen
384 / 291 / 21
Регистрация: 07.08.2011
Сообщений: 790
Записей в блоге: 1
1

Удалить повторы слов

22.03.2012, 23:57. Просмотров 2448. Ответов 7
Метки нет (Все метки)

Нужно удалить повторы слов из текста. Код работает но дого.

Я сначала текст копирую в QString.
Потом очищаю от лишних символов.
Далее удаляю повторы.

Можно ли это как-то по другому сделать? Долго повторы удаляються... Подскажите.

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
    QString new_file;
    QString all_file;
 
    QFile file("file.txt");
 
                    if(file.open(QIODevice::ReadOnly))
                    {
                        QTextStream out(&file);
                        out.setCodec("UTF-8");
                        all_file = out.readAll();
                        file.close();
                    }
            }
 
            //-- Удалит все символы для проверки слова
                QString symbol = "\'\"\?\\!@#$%^&*()_+=|/,.;:1234567890\t";
 
                for(int i = 0; i<symbol.size(); i++)
                {
                    all_file.remove(symbol[i]);
                }
 
            //--
 
            // Разберемся с тире
            all_file.replace(QString(" - "), QString("\n"));
            all_file.replace(QString("- "), QString("\n"));
            all_file.replace(QString(" -"), QString("\n"));
            //--
 
            //-- Заменим все пробелы новой строкой (\n)
                all_file.replace(QString(" "), QString("\n"));
 
            // Удалим лишние \n
            all_file.replace(QString("\n "), QString(""));
            all_file.replace(QString("\n\n"), QString(""));
            all_file.replace(QString(" \n"), QString(""));
            all_file.replace(QString("  "), QString(""));
            //--
 
           // Удаляем повторы
            for(int i = 1; i<all_file.size(); i++)
            {
                QString str = all_file.section('\n', i,i); // определяет слово
                all_file.replace("\n" + str + "\n", QString("\n\n")); // удаляет его из массива
 
                if(!str.isEmpty())
                {
                new_file += str + "\n";
                }
            }
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
22.03.2012, 23:57
Ответы с готовыми решениями:

С++ Повторы слов!!!
Помогите написать программу и примерно объяснить алгоритм. А то проболел все...

посчитать повторы слов
помогите, пожалуйста, написать программу: Дан текст, содержайщий n строк. Для...

Анализ слов на повторы из файла
Здрасте. Есть файл с содержанием: Пытаюсь сравнить все слова друг с другом...

Запретить повторы слов в наименованиях ТОВАРА
ПОМОГИТЕ ПОЖАЛУЙСТА СДЕЛАТЬ НА PL/SQL

Удалить повторы в массивах
Есть многомерный массив Пример: =1,1,1,1,1,1,1,1,1&lt;-надо удалить...

7
Arti3DPlayer
10 / 10 / 0
Регистрация: 03.02.2012
Сообщений: 99
23.03.2012, 01:01 2
Я бы сделал очищение с помощью ашсикодов, тоисть если ашсикод символа с диапазона от 65 до 90 и от 97 до 122, то оставить символ, а иначе удалить... Ну так же поставить диапазон русских букв.
1
Maxim Prishchepa
Эксперт С++
1924 / 1036 / 109
Регистрация: 29.03.2010
Сообщений: 3,167
23.03.2012, 10:20 3
эм...
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
QFile file("file.txt");
QString fData;
if(file.open(QIODevice::ReadOnly)){
  QTextStream out(&file);
  out.setCodec("UTF-8");
  fData = out.readAll();
  file.close();
}
QRegExp rx("([\\w\\']+)[\\s,.;]");
QStringList list;
int pos = 0;
while ((pos = rx.indexIn(fData, pos)) != -1) {
     list << rx.cap(1);
     pos += rx.matchedLength();
 }
list.removeDuplicates ();
Собственно в переменной list и будет результат (регулярку поправить по вкусу...)
1
KeyGen
384 / 291 / 21
Регистрация: 07.08.2011
Сообщений: 790
Записей в блоге: 1
24.03.2012, 00:37  [ТС] 4
Вообщем следелал пока так:

Жмем на pushButton_2 и началось:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
    QString new_file;
    QString all_file;
 
    int min;
    int max;
 
    bool BL = true;
    QString num_min = ui->lineEdit->text();
    QString num_max = ui->lineEdit_2->text();
 
    if(!ui->checkBox->isChecked() && !ui->checkBox_2->isChecked())
    {
       QMessageBox::information(this, "Информация", "Не выбран язык!");
       BL = false;
    }
 
    if(url.isEmpty()&&BL)
    {
        QMessageBox::information(this, "Информация", "Не указана ни одна книга!");
        BL = false;
    }
 
    if(urladd.isEmpty() && ui->radioButton_5->isChecked()&&BL)
    {
        QMessageBox::information(this, "Информация", "Не указао куда дописывать!");
        BL = false;
    }
 
    if(ui->checkBox_4->isChecked()&&BL)
    {
        QString num_temp = "1234567890";
 
        if(num_min.isEmpty())
        {
            QMessageBox::information(this, "Информация", "Укажите начальную цифру!");
            BL = false;
        }
        else
        {
            for(int i=0; i<num_min.size()&&BL; i++)
            {
                for(int j = 0; j < num_temp.size(); j++)
                {
                    if(num_temp.at(j) == num_min.at(i))
                    {
                        BL = true;
                        break;
                    }
                    else
                        BL = false;
                }
            }
 
            if(!BL)
            {
              QMessageBox::information(this, "Информация", "Начальная цифра - не цифра, принемаем только целые числа!");
            }
        }
 
        if(num_max.isEmpty())
        {
            QMessageBox::information(this, "Информация", "Укажите конечную цифру!");
            BL = false;
        }
        else
        {
            for(int i=0; i<num_max.size()&&BL; i++)
            {
                for(int j = 0; j < num_temp.size(); j++)
                {
                    if(num_temp.at(j) == num_max.at(i))
                    {
                        BL = true;
                        break;
                    }
                    else
                        BL = false;
                }
            }
 
            if(!BL)
            {
              QMessageBox::information(this, "Информация", "Начальная цифра - не цифра, принемаем только целые числа!");
            }
        }
 
        if(BL)
        {
            min = num_min.toDouble() ;
            max = num_max.toDouble();
 
            if(max<min)
            {
                QMessageBox::information(this, "Информация", "Первое число должно быть меньше!");
                BL = false;
            }
        }
    }
 
    if(!url.isEmpty() && BL)
    {
        int ret = url.count(".txt", Qt::CaseInsensitive);
 
        int index = 0;
 
            //-- Открываем файл из адреса url
            for(int i = 0; i<ret; i++)
            {
                //-- Вырезаем адрес
                index = url.indexOf(".txt", index+1 , Qt::CaseInsensitive);
 
                QString url_book = url;
 
                url_book = url_book.left(index+4);
 
                int indexlast = url_book.lastIndexOf(".txt", url_book.size()-6, Qt::CaseInsensitive);
 
                if(indexlast != -1)
                    url_book = url_book.right(url_book.size() - indexlast-4);
                //--
 
 
                QFile file(url_book);
 
                    if(file.open(QIODevice::ReadOnly))
                    {
                        QTextStream out(&file);
                        out.setCodec("UTF-8");
                        all_file += out.readAll();
                        file.close();
                    }
            }
 
//////////////////////////////////////////////// -- 1 -- //////////////////////////////////////////////////
            QString all_file_new;
            QString word_ang = "\n ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz\'-";//52+4
            QString word_rus = "\n АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЫЬЪЭЮЯабвгдеёжзийклмнопрстуфхцчшщыьъэюя-";//66+3
 
            // Считываем буквы и разделяющие символы
            if(ui->checkBox->isChecked()&&!ui->checkBox_2->isChecked())
                for(int i=0; i<all_file.size(); i++)
                {
                    for(int j = 0; j<word_ang.size(); j++)
                      if(all_file.at(i) == word_ang.at(j))
                      {
                          all_file_new += all_file.at(i);
                          break;
                      }
                }
            else if(ui->checkBox_2->isChecked()&&!ui->checkBox->isChecked())
                for(int i=0; i<all_file.size(); i++)
                {
                    for(int j = 0; j<word_rus.size(); j++)
                      if(all_file.at(i) == word_rus.at(j))
                      {
                          all_file_new += all_file.at(i);
                          break;
                      }
                }
            else
            {
                QString all_word = word_ang + word_rus;
                for(int i=0; i<all_file.size(); i++)
                {
                    for(int j = 0; j<all_word.size(); j++)
                      if(all_file.at(i) == all_word.at(j))
                      {
                          all_file_new += all_file.at(i);
                          break;
                      }
                }
            }
 
            //-- Заменим все пробелы '*'
            all_file_new.replace(QChar(' '), QString("*"));
            all_file_new.replace(QChar('\n'), QString("*"));
            //--
 
            // Разберемся с '-' and '\''
                if(ui->checkBox->isChecked()&&ui->checkBox_2->isChecked()||ui->checkBox->isChecked())
                {
                    all_file_new.replace(QString("\'\'"), QString("*"));
                    all_file_new.replace(QString("*\'*"), QString("*"));
                    all_file_new.replace(QString("\'*"), QString("*"));
                    all_file_new.replace(QString("*\'"), QString("*"));
 
                    all_file_new.replace(QString("--"), QString("*"));
                    all_file_new.replace(QString("*-*"), QString("*"));
                    all_file_new.replace(QString("-*"), QString("*"));
                    all_file_new.replace(QString("*-"), QString("*"));
 
                }
                else if(ui->checkBox_2->isChecked())
                {
                    all_file_new.replace(QString("--"), QString("*"));
                    all_file_new.replace(QString("*-*"), QString("*"));
                    all_file_new.replace(QString("-*"), QString("*"));
                    all_file_new.replace(QString("*-"), QString("*"));
                }
 
            //--
 
            ////////////////////////////////////////////////////
            ///////////////////-- Главный цикл --///////////////
 
            //////////////////--------------------------------------------------////////////////////
 
            int size_progress = all_file_new.count('*');
            qDebug() << size_progress;
            //int integral = 9;
 
            int num_word = 0;
 
            QProgressDialog progress("Выполняеться обработка...", "Отмена", 0, size_progress, this);
            progress.setWindowTitle("Прогресс");
            progress.setWindowModality(Qt::WindowModal);
 
            progress.setValue(0);
 
            for(int i = 1; i<all_file_new.size(); i++)
            {
                QString str = all_file_new.section('*', i,i);
 
                if (progress.wasCanceled())
                    break;
 
                if(!str.isEmpty())
                {
                    new_file += str + "\n";
                    num_word++;
                    qDebug() << str;
                }
                else
                    continue;
 
                all_file_new.replace("*" + str + "*", QString("**"), Qt::CaseInsensitive);
 
                if(i)
                progress.setValue(i);
            }
 
            progress.setValue(size_progress);
 
            ////////////////////////////////////////////////////
            ////////////////////////////////////////////////////
 
            // Добавим символы если нужно
            if(ui->checkBox_3->isChecked())
            {
                 QString symbol = "\"\n\'\n!\n@\n#\n$\n%\n^\n&\n*\n(\n)\n_\n-\n+\n=\n|\n/\n,\n.\n?\n;\n:\n{\n}\n[\n]\n\\\n";
                 new_file += symbol;
            }
 
            // Добавим цыфры если нужно
            if(ui->checkBox_3->isChecked())
            {
                 QString num;
 
                 for(int i = min; i<=max; i++)
                 {
                     num.setNum(i);
                     new_file += num + "\n";
                 }
            }
 
            if(ui->radioButton->isChecked())
            {
                // Верхний регистр
                new_file = new_file.toUpper();
            }
 
            if(ui->radioButton_2->isChecked())
            {
                // Нижний регистр
                new_file = new_file.toLower();
            }
 
            if(ui->radioButton_4->isChecked())
            {
               // Создать новый
                QFile file_new("New_Dectionary.txt");
 
                    if(file_new.open(QIODevice::WriteOnly))
                    {
                        QTextStream out_new(&file_new);
                        out_new.setCodec("UTF-8");
                        out_new << new_file;
                        file_new.close();
                    }
            }
 
            if(ui->radioButton_5->isChecked())
            {
                QFile file_new(urladd);
 
                    if(file_new.open(QIODevice::Append | QIODevice::WriteOnly))
                    {
                        QTextStream out_new(&file_new);
                        out_new.setCodec("UTF-8");
                        out_new << new_file;
                        file_new.close();
                    }
 
            }
        QMessageBox::information(this, "Информация", "Выполнено!");
 
        // Вывод подсчета слов
 
        QString calculation_word;
        calculation_word.setNum(num_word);
 
        QString calculation_word_plus = ui->textBrowser->toPlainText();
 
        calculation_word_plus += "\nНайдено слов: " + calculation_word;
 
        ui->textBrowser->setPlainText(calculation_word_plus);
    }
Программ рабочая все пашет. Пока долго удаляет повторы (файл в 167 kb 3-4 мин.) покопаюсь с QStringList как посоветовал l_a_m попробую улучшить. Кому надо заберайте.

Компилировал на линуксе как на винде работает пока не знаю...

ВОПРОС АКТУАЛЕН!
0
Миниатюры
Удалить повторы слов   Удалить повторы слов   Удалить повторы слов  

Удалить повторы слов   Удалить повторы слов  
Вложения
Тип файла: rar EditDictionary.rar (6.8 Кб, 25 просмотров)
Maxim Prishchepa
Эксперт С++
1924 / 1036 / 109
Регистрация: 29.03.2010
Сообщений: 3,167
24.03.2012, 00:57 5
Полный П! (была такая ассоциация....)
а как вы этот код сопровождать собираетесь? О_о это ж просто трындец какой-то... (не обижайтесь конечно, но с таким кодом лучше сюда)

если планируете работать с текстом - то ИМХО только регулярки спасут отца советской демократии...

Добавлено через 53 секунды
+ откройте для себя ООП, это действительно удобно...
0
KeyGen
384 / 291 / 21
Регистрация: 07.08.2011
Сообщений: 790
Записей в блоге: 1
24.03.2012, 01:05  [ТС] 6
l_a_m, Ни сколько не обижаюсь. Критика приветствуеться... )
Учусь сам. Вы укажите лучше ошибки чем сразу туда отправлять)))
0
Maxim Prishchepa
Эксперт С++
1924 / 1036 / 109
Регистрация: 29.03.2010
Сообщений: 3,167
24.03.2012, 02:49 7
боюсь, нужно туда, а потом уже всё заново переделывать....
)

для начала мне крайне не нравится, что оооооочень большая функция получилась,
совершенно не понятно, используется ли тут ООП?
работа с текстом (в большом количестве) производится через сравнительно медленные стандартные функции, вместо того, что бы пользовать регулярки.... (это так... на вскидку....)
1
Jupiter
Каратель
Эксперт С++
6570 / 3991 / 400
Регистрация: 26.03.2010
Сообщений: 9,273
Записей в блоге: 1
Завершенные тесты: 2
25.03.2012, 17:55 8
KeyGen, хорошо бы написать "независимый" "чёрный ящик" который обрабатывает текст, задача UI - взять текст, передать его "чёрному ящику" и забрать результат
2
25.03.2012, 17:55
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
25.03.2012, 17:55

Удалить повторы в строках
Доброго времени суток. Нужен код, который способен удалять дубли из строк....

Удалить повторы в списке l3
Добрый вечер! Помогите пожалуйста с программой, в общем необходимо удалить...

Удалить повторы в DBLookupComboBox
Имеется таблица, из который беру указанный столбик, и в нем есть повторы, как...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2018, vBulletin Solutions, Inc.
Рейтинг@Mail.ru