Форум программистов, компьютерный форум CyberForum.ru

Выбор оптимальной структуры данных - C++

Восстановить пароль Регистрация
 
__sirroko
4 / 4 / 3
Регистрация: 03.03.2013
Сообщений: 55
11.05.2014, 01:49     Выбор оптимальной структуры данных #1
Здравствуйте!

Задача состоит в следующем.
Есть большой файл (~68 mb) с текстом. Нужно посчитать сколько раз встречается каждое слово в тексте и
вывести эту информацию в формате "слово :: количество". Причем вывод должен быть отсортирован в алфавитном порядке.

Я попробовал реализовать через двусвязный список, но файл обрабатывается довольно-таки долго:
файла ~ 68,6 Мб
t1 :: 1399758273
t2 :: 1399758296
t2 - t1 :: 23
t3 :: 1399758296
t3 - t2 :: 0

Думаю в сторону AVL-tree, RB-tree. Но прежде чем браться за реализацию, хотелось бы убедиться, в том ли направлении я мыслю...
Что можете посоветовать? Кто сталкивался с такой задачей?
Заранее спасибо =)

Вот моя реализация

main.cpp
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
#include "CList.h"
 
#include <ctime>
 
int main()
{
  CList list;
  std::string str;
  std::fstream in;
 
  int t1 = time(0);
 
  in.open("input.txt", std::ios::in);
 
  while (!in.eof())
  {
    std::getline(in, str);
    list.add(str);
  }
 
  int t2 = time(0);
 
  list.sortAZ();
  list.printToFile("output.txt");
 
  int t3 = time(0);
 
  in.close();
 
  std::cout << "t1      :: " << t1 << std::endl;
  std::cout << "t2      :: " << t2 << std::endl;
  std::cout << "t2 - t1 :: " << t2 - t1 << std::endl;
  std::cout << "t3      :: " << t3 << std::endl;
  std::cout << "t3 - t2 :: " << t3 - t2 << std::endl;
 
  return 0;
}
CList.h
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
#ifndef _CLIST_H
#define _CLIST_H
 
#include <iostream>
#include <string>
#include <fstream>
 
typedef struct _nodeList
{
  struct _nodeList* next;
  struct _nodeList* previous;
  std::string word;
  unsigned int count;
}
nodeList;
 
class CList
{
public:
  CList();
  ~CList();
  void add(std::string str);
  void sortAZ();
  void printToFile(std::string file);
  void clear();
 
private:
  nodeList* first;
 
  bool find(std::string str);
};
 
#endif // _CLIST_H
CList.cpp
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
#include "CList.h"
 
CList::CList()
{
  first = 0;
}
 
CList::~CList()
{
  clear();
}
 
void CList::add(std::string str)
{
  char *line;
  char *token, *next_token;
 
  line = new char[str.length() + 1];
  strcpy_s(line, str.length() + 1, str.c_str());
 
  token = strtok_s(line, ".,; -:!?", &next_token);
  while (token)
  {
    // Возможно, слово уже есть в списке.
    // Если нет, то добавляем его в начало списка.
    if (!find(token))
    {
      nodeList * newNode = new nodeList[sizeof(nodeList)];
      newNode->word = std::string(token);
      newNode->count = 1;
      newNode->previous = 0;
 
      // Учитываем, что элемент может быть первым в списке.
      if (first == 0)
      {
        newNode->next = 0;
        first = newNode;
      }
      else
      {
        newNode->next = first;
        first->previous = newNode;
        first = newNode;
      }
    }
 
    // Переходим к следующему слову в строке.
    token = strtok_s(0, ".,; -:!?", &next_token);
  }
}
 
void CList::sortAZ()
{
  nodeList *i, *j;
  std::string tmp_word;
  unsigned int tmp_count;
 
  // Соритровка простыми вставками.
  for (i = first; i != 0; i = i->next)
  {
    tmp_word = i->word;
    tmp_count = i->count;
 
    for (j = i->previous; j != 0 && j->word.compare(tmp_word) >= 0; j = j->previous) {
      j->next->word = j->word;
      j->next->count = j->count;
    }
 
    // Дополнительная проверка, т.к. j при j = j->previous может быть равен 0.
    if (j)
    {
      j->next->word = tmp_word;
      j->next->count = tmp_count;
    }
    else
    {
      first->word = tmp_word;
      first->count = tmp_count;
    }
  }
}
 
void CList::printToFile(std::string file)
{
  std::fstream out;
  out.open(file, std::ios::out);
 
  for (nodeList* iter = first; iter != 0; iter = iter->next)
  {
    out << iter->word << " : " << iter->count << std::endl;
  }
 
  out.close();
}
 
void CList::clear()
{
  nodeList *tmp;
  while (first != 0)
  {
    // Каждый следующий элемент становится первым,
    // а тот, в свою очередь, удаляется.
    tmp = first;
    first = first->next;
    delete[] tmp;
  }
}
 
bool CList::find(std::string str)
{
  bool ret = false;
 
  for (nodeList* iter = first; iter != 0; iter = iter->next)
  {
    if (iter->word.compare(str) == 0)
    {
      // Если такое слово в списке уже есть, то
      // увеличиваем кол-во раз, которое он встретился.
      ret = true;
      iter->count++;
      break;
    }
  }
 
  return ret;
}
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
11.05.2014, 01:49     Выбор оптимальной структуры данных
Посмотрите здесь:

C++ Структуры данных.
C++ Структуры данных
C++ ООП.Разработать структуру элементов данных класса в виде динамической структуры данных
C++ структуры данных
Выбор оптимальной последовательности. Конечный алгоритм C++
Структуры данных (создание, просмотр, дополнение и извлечения данных из файла, содержащего информацию о номерах телефонов сотрудников учреждения,ФИО) C++
C++ Задача на структуры: выбор точек, образующих треугольник наибольшего периметра
C++ Выбор структуры данных

Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
nmcf
4259 / 3690 / 1243
Регистрация: 14.04.2014
Сообщений: 14,450
11.05.2014, 09:46     Выбор оптимальной структуры данных #2
Попробуй контейнер map из STL: http://adorning.ru/2010/01/18/s-urok...ivnyiy-massiv/
__sirroko
4 / 4 / 3
Регистрация: 03.03.2013
Сообщений: 55
11.05.2014, 18:30  [ТС]     Выбор оптимальной структуры данных #3
Спасибо!
Попробую теперь сам реализовать

Добавлено через 2 часа 3 минуты
nmcf, я тут попробовал запустить пример из статьи, что вы посоветовали. Вот какие результаты:
t1 :: 1399818278
t2 :: 1399818491
t2 - t1 :: 213
t3 :: 1399818491
t3 - t2 :: 0
t4 :: 1399818491
t4 - t3 :: 0

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
#include <iostream>
#include <string>
#include <map>
#include <fstream>
#include <ctime>
 
using namespace std;
 
int main()
{
  map <string, int> words;
  map <string, int>::iterator cur;
  ifstream in;
  ofstream out;
  string word;
  int count = 0;
  
  time_t t1 = time(0);
 
  in.open("input.txt");
  while (in >> word)
  {
    words[word]++;
  }
  in.close();
 
  time_t t2 = time(0);
 
  out.open("output.txt");
  out << "Words count :" << endl;
   
  for (cur = words.begin(); cur != words.end(); cur++)
  {
    out << (*cur).first << " : " << (*cur).second << endl;
    count += (*cur).second;
  }
 
  time_t t3 = time(0);
 
  out << "Words percenc : " << endl;
 
  for (cur = words.begin(); cur != words.end(); cur++)
  {
    out << (*cur).first << " : "
        << (float)((float)(*cur).second / (float)count) * 100
        << "%" << endl;
  }
 
  out.close();
 
  time_t t4 = time(0);
  
 
  std::cout << "t1      :: " << t1 << std::endl;
  std::cout << "t2      :: " << t2 << std::endl;
  std::cout << "t2 - t1 :: " << t2 - t1 << std::endl;
  std::cout << "t3      :: " << t3 << std::endl;
  std::cout << "t3 - t2 :: " << t3 - t2 << std::endl;
  std::cout << "t4      :: " << t4 << std::endl;
  std::cout << "t4 - t3 :: " << t4 - t3 << std::endl;
 
  return 0;
}
Yandex
Объявления
11.05.2014, 18:30     Выбор оптимальной структуры данных
Ответ Создать тему
Опции темы

Текущее время: 14:20. Часовой пояс GMT +3.
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2016, vBulletin Solutions, Inc.
Рейтинг@Mail.ru