Форум программистов, компьютерный форум CyberForum.ru

Найти ключевые слова в тексте - C++

Восстановить пароль Регистрация
 
hofmn
Helter Skelter
 Аватар для hofmn
61 / 61 / 1
Регистрация: 19.09.2012
Сообщений: 133
14.05.2013, 08:59     Найти ключевые слова в тексте #1
Задача: дан файл с произвольным текстом. Найти первые 10 ключевых слов (т.е. таких, которые чаще всего встречаются).
Код, приведенный ниже, работает корректно.
Посоветуйте, что подправить/оптимизировать/улучшить.
Как данную задачу решили бы вы?
Листинг
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
#include <iostream>
#include <fstream>
#include <algorithm>
#include <map>
using namespace std;
 
bool filter (char c)
{
    return c == '.' || c == ','  || c == ':'  ||
           c == ';' || c == '-'  || c == '_'  ||
           c == '!' || c == '?'  || c == '\"' ||
           c == '(' || c == ')'  || c == '/'  ||
           c == '$' || c == '\\' || c == '%';
}
 
int main()
{
    ifstream infile  ("text.txt");
    string s;
    std::map<string, int>::iterator it;
    std::map<int, string>::reverse_iterator rit;
    std::map<string, int> dictionary;
    std::multimap<int, string> resultDictionary;
 
    while (infile >> s)
    {
        // Remove chars (.,-, etc)
        s.resize (remove_if(s.begin(), s.end(), filter) - s.begin());
 
        if (!s.empty() && s.length() > 3)
        {
            if (dictionary.find(s) != dictionary.end())
            {
                // Increment counter of words
                dictionary.at(s)++;
            }
 
            // Insert word in the map
            else
            {
                dictionary.insert (pair<string,int>(s, 1));
            }
        }
    }
 
    for (it = dictionary.begin(); it != dictionary.end(); ++it)
    {
        resultDictionary.insert(pair<int, string> (it->second, it->first));
    }
 
    int i;
 
    cout << "Top 10 keywords of the text:" << endl;
 
    for (rit = resultDictionary.rbegin(), i = 1;
         rit != resultDictionary.rend(), i < 11;
         rit++, i++)
    {
        cout << rit->second << " => " << rit->first << endl;
    }
 
    return 0;
}


Добавлено через 10 часов 40 минут
Актуально
После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
cyberbrain1000
 Аватар для cyberbrain1000
23 / 23 / 3
Регистрация: 15.04.2013
Сообщений: 62
14.05.2013, 09:33     Найти ключевые слова в тексте #2
вместо
C++
1
2
3
4
5
6
7
8
9
10
11
 if (dictionary.find(s) != dictionary.end())
            {
                // Increment counter of words
                dictionary.at(s)++;
            }
 
            // Insert word in the map
            else
            {
                dictionary.insert (pair<string,int>(s, 1));
            }
так
C++
1
++dictionary[s];
вместо
C++
1
!s.empty() && s.length() > 3
так
C++
1
s.length() > 3
и вместо filter не лучше ли isalnum ?
XRuZzz
Антикодер
577 / 478 / 23
Регистрация: 15.09.2012
Сообщений: 2,429
14.05.2013, 09:37     Найти ключевые слова в тексте #3
с помощью boost::regex
hofmn
Helter Skelter
 Аватар для hofmn
61 / 61 / 1
Регистрация: 19.09.2012
Сообщений: 133
16.05.2013, 14:27  [ТС]     Найти ключевые слова в тексте #4
Цитата Сообщение от cyberbrain1000 Посмотреть сообщение
и вместо filter не лучше ли isalnum ?
Да, так более лаконично, спасибо.

Добавлено через 1 минуту
Цитата Сообщение от XRuZzz Посмотреть сообщение
с помощью boost::regex
boost нельзя использовать, к сожалению.

Жду еще предложений.

Добавлено через 6 часов 20 минут
Актуально

Добавлено через 12 часов 49 минут
Актуально

Добавлено через 10 часов 12 минут
Актуально

Добавлено через 1 час 54 минуты
up.

Добавлено через 15 часов 37 минут
up
Yandex
Объявления
16.05.2013, 14:27     Найти ключевые слова в тексте
Ответ Создать тему
Опции темы

Текущее время: 06:13. Часовой пояс GMT +3.
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2016, vBulletin Solutions, Inc.
Рейтинг@Mail.ru