Поиск анаграмм

@slavik · Регистрация: 11.09.2011

Author24 — интернет-сервис помощи студентам

Доброй ночи!
Такая задачка... Возможно многим знакома по Золотому байту. Я в самом начале изучения С++ и до конца не могу разобраться.
Есть файл "in.txt" с каким-либо списком слов (до 10000). Одна строка - одно слово.
Нужно найти все анаграммы и вывести их в файл "out.txt".
Например во входном файле:
kot
polet
tok
leto
teplo
kto
zima

Тогда на выходе:
kot
tok
kto
polet
teplo

Примерно так...
Во время первого считывания файла я определяю кол-во строк. Затем создаю массив строк.
Далее сортирую буквы в словах.
Это сделал. Вроде и дальше понимаю путь (с помощью strcmp ищем дубликаты). Но на деле не получается. Не пойму , как обратно отсортировать. Или какой другой алгоритм нужен. И как в файл записать... Классы не использовать.
Посмотрите код и помогите пожалуйста.

C++

#include<iostream>
#include <cstdlib>
#include<stdio.h>
#include <iomanip>
#include<cctype>
#include<cstring>
using namespace std;
void BubbleSort1(char[],int);
int main()
{
    setlocale(LC_ALL,"rus");
    FILE *file;
    char str[255];
    int N,M=0;
    if((file=fopen("in.txt", "r"))!=NULL)
    {
    do
        {
            fgets(str,255,file);
            M++;
        } while(!feof(file));
        fclose(file);
    }
    else
    {
        cout<<"File not found"<<endl;
    }
    char **mas = new char*[M];
    for(int i=0;i<M;i++)
    {
        mas[i]=new char[255];
    }
    if((file=fopen("in.txt", "r"))!=NULL)
    {
        for(int i=0;i<M;i++)
        {
            fgets(mas[i],255,file);
        }
        fclose(file);
    }
    else
    {
        cout<<"Error";
    }
    for(int i=0;i<M;i++)
    {
        cout<<mas[i];
    }
    cout<<"\n\n";
    for(int i=0;i<M;i++)
    {
        N=strlen(mas[i]);
        BubbleSort1(mas[i],N);
    }
    for(int i=0; i<M-1; i++)
    {
        cout<<mas[i];
    }
    cout<<"\n\n";
    for(int i=0;i<M;i++)
    {
        char*y=mas[i];
        for(int j=i+1;j<M;j++)
        {
            if(strcmp(y,mas[j])==0)
            {
                cout<<y;
            }
        }
    }
    cout<<endl;
    system("pause");
    return 0;
}
void BubbleSort1(char*mas,int M)
{
    bool sort=true;
    while(sort)
    {
        sort=false;
        for(int i=0;i<M-1;i++)
        {
            if(mas[i]>mas[i+1])
            {
                int x=mas[i];
                mas[i]=mas[i+1];
                mas[i+1]=x;
                sort=true;
            }
        }
    }
}

@~~alkagolik~~ · 16.10.2011, 04:29

если вы ограничены только нижним регистром и точно знаете что отсутствуют цифры и знаки препинания то не надо сортировать, ищите совпадения по суммам символов. но помните что сумма это еще не не анаграмма, например "no" == "ex" == 221. вот идея

C

while(i != strlen(str))
    sum +=str[i];
while(fgets(buf, 255, filename) != eof)
      anagram = check(sum, buf, str);

@slavik · 16.10.2011, 08:52 **[ТС]**

Сообщение от alkagolik

если вы ограничены только нижним регистром и точно знаете что отсутствуют цифры и знаки препинания то не надо сортировать, ищите совпадения по суммам символов. но помните что сумма это еще не не анаграмма, например "no" == "ex" == 221. вот идея

C

while(i != strlen(str))
    sum +=str[i];
while(fgets(buf, 255, filename) != eof)
      anagram = check(sum, buf, str);

Оригинально...
А можно эту идею на каком-нибудь небольшом примере показать, пожалуйста...

@Deviaphan · 16.10.2011, 08:56

Вместо кодов символов можно суммировать коды из хэш таблицы. Меньше ложных совпадений будет. И заглавные буквы можно будет "приравнять" к строчным.

@~~alkagolik~~ · 16.10.2011, 09:39

slavik, дайте входной файл потестировать

@slavik · 16.10.2011, 09:54 **[ТС]**

Файл может быть с разным кол-вом слов. До 10000.
Поэтому и нужен первый пробег по файлу для выяснения кол-ва строк.
Цифры, пробелы, знаки препинания отсутствуют. Только буквы.
Ну например такой:

@talis · 16.10.2011, 13:19

Вот, решил через связность. Алгоритм, конечно, жуткий и жадный на память и ресурсы, но что придумал.

C++

#include <iostream>
#include <fstream>
#include <string>
#include <vector>
#include <algorithm>
 
/* определяет равенство строк по количеству вхождений каждой *
 * буквы в эту строку. пробелы цифры и пр. игнорируются      */
bool letter_cmp( const std::string &a, const std::string &b )
{
    unsigned count_a[ 'z' - 'a' + 1 ] = {0}; // количество вхождений букв в строку а
    unsigned count_b[ 'z' - 'a' + 1 ] = {0}; // количество вхождений букв в строку b
 
    // считаем a
    for( int i = 0; i < a.size(); i++ )
    {
        if( isalpha( a[i] ) )
           count_a[ 'z' - tolower( a[i] ) ]++;
    }
 
    // считаем b
    for( int i = 0; i < b.size(); i++ )
    {
        if( isalpha( b[i] ) )
           count_b[ 'z' - tolower( b[i] ) ]++;
    }
 
    // проверяем равенство вхождений каждой буквы
    for( int i = 0; i < 'z' - 'a'; i++ )
    {
        if( count_a[i] != count_b[i] )
           return false; // если количество вхождений этой буквы отличается, возвращаем false
    }
 
    return true; // если все вхождения равны, возвращаем true
}
 
int main()
{
    std::vector<std::string> lines; // здесь хранятся строки файла
    std::string input; // сюда вводится новая строка из файла
 
    // ---------- читаем весь файл ---------
    std::ifstream fs( "in.txt" );
 
    if( !fs.is_open() )
    {
       std::cerr << "error opening in.txt\n";
       return -1;
    }
 
    while( fs >> input )
       lines.push_back( input );
 
    fs.close();
 
    std::cout << "done reading " << lines.size() << " words\n\n";
 
    // ---- заполняем вектор связности -----
    std::vector<int> connectivity( lines.size() );
 
    for( int i = 0; i < lines.size(); i++ )
       connectivity[i] = i;
 
    // ---- определяем связность -----------
 
    for( int i = 0; i < lines.size(); i++ ) // проходим все строки
    {
        for( int u = 0; u < lines.size(); u++ ) // n*n раз
        {
            if( connectivity[i] != connectivity[u] ) // если эти две строки уже связаны, пропускаем их
            {
                if( letter_cmp( lines[i], lines[u] ) ) // иначе если строки равны по количеству вхождений букв
                {
                    // связываем их
                    int old_i = connectivity[i]; // старое значение ключа
 
                    for( int j = 0; j < connectivity.size(); j++ )
                    {
                        if( connectivity[j] == old_i ) // везде, где ключ старый
                           connectivity[j] = connectivity[u]; // меняем его на новый
                    }
                }
            }
        }
    }
 
    // ---- выводим все связанные слова ------
    for( int i = 0; i < connectivity.size(); i++ )
    {
        unsigned int out = 0;
 
        if( std::count( connectivity.begin(), connectivity.end(), i ) > 1 )
        {
            for( int u = 0; u < connectivity.size(); u++ )
            {
               if( connectivity[u] == i )
               {
                  if( out )
                     std::cout << ", ";
 
                  std::cout << lines[u];
                  out++;
               }
            }
 
            if( out )
               std::cout << '\n';
        }
    }
 
    return 0;
}

Интересно было бы увидеть более красивое решение.

@~~alkagolik~~ · 16.10.2011, 13:32

у меня тоже чепуха какая-то, более того - из-за смены курсора в файле (строки 50, 70)не хочет завершать цикл

C

#include <stdio.h>
#include <stdlib.h>
 
char in(char * str, char *buf)
{
    int i = 0, j;
    char ch = 0;
    while(str[i])
    {
        j = 0; ch = 0;
        while (buf[j])
            if (str[i] == buf[j++])
            {
                ch = 1;
                break;
            }
        if (!ch)
            break;
        else
            ++i;
    }
    return ch;
}
 
int main ()
{
    char *buf, *str;
 
    buf = (char*)malloc(1 << 7);
    if (!buf)
        exit(-1);
 
    str = (char*)malloc(1 << 7);
    if (!str)
        exit(-1);
 
    int tmp = 0, i = 0, sum = 0;
    fpos_t pos;
 
    FILE *filename;
    filename = fopen("/home/chertopolox/downloads/in.txt", "r");
 
    if (!filename)
        exit(-2);
 
    while ( !feof(filename) )
    {
        fgets(str, 128, filename);
 
        fgetpos(filename, &pos);
 
        while (str[i] != '\0')
            sum ^= str[i++];
 
        while (!feof(filename))
        {
            fgets(buf, 128, filename);
 
            while (buf[i] != '\0')
                tmp ^= buf[i++];
 
            if ( sum == tmp )
                if ( in(str, buf) )
                    printf("%s == %s\n", str, buf);
 
            i = 0; tmp = 0;
        }
 
        i = 0; sum = 0;
        fsetpos(filename, &pos);
    }
    fclose(filename);
    free(str);
    free(buf);
    return 0;
}

@KeyGen · 16.10.2011, 13:33

Вот я писал только не для txt... Алгоритм работает...

C++

#include <iostream>
 
using std::cout;
    
int main()
{
    setlocale(LC_ALL, "rus");
    
    char *p[10]={
         "int cool,",
         "float,",
         "double,",
         "short,",
         "int cool,",
         "char,",
         "float,",
         "int,",
         "int,",
         "short,"
         };
         
    char *ch[10];
    
         //Êîïèðóåì ñîäåðæàíèå ìàññèâà *p
         for(int i=0; i<10; i++)
         ch[i]=p[i];
         
         int i=0;
         int schet=0;
         // Óáåðàåì èç ìàññèâà ñòðîêè áåç ïîâòîðîâ
         while(i<10){
                    
                    for(int j=0; j<10; j++){
                    if(j==i)
                    continue;
                    if(strcmp(ch[i],ch[j]))
                    schet++;
                    }
                    if(schet==9)
                    {ch[i]="";schet=0;}
                    else
                    schet=0;
                    i++;
                 }            
         
         // Óáåðàåì ïîâòîðû
         i=0;
         while(i<10){
                    
                    for(int j=0; j<10; j++){
                    if(j==i)
                    continue;
                    if(!(strcmp(ch[j],ch[i])))
                    ch[j]="";
                    }
                    i++;
                 }           
         
         //Âûâîä ìàññèâà *p
         cout << "Âåñü ìàññèâ:\n";
         for(int i=0; i<10; i++){
         cout << p[i] << " ";
         }
         
         //Âûâîä ìàññèâà *ch
         cout << "\nÏîâòîðû:\n";
         for(int i=0; i<10; i++)
         if(ch[i]!="")
         cout << ch[i] << " ";
    
    
    
    cout << "\n\n\n";
    system("PAUSE");
    return 0;
}

@Deviaphan · 16.10.2011, 13:35

Сообщение от talis

Интересно было бы увидеть более красивое решение.

Создаётся массив пар pair<string,string>. Вторым заносится слово, первым это же слово, но отсортированное по буквам без учёта регистра. Массив сортируется по первому в паре. Дальше всё очевидно.

@talis · 16.10.2011, 13:36

Ребят, ну через сумму решать - это же немного не то. 2 + 8 == 1 + 9 == 5 + 5 == 3 + 7 и так далее. Ошибки возможны

KeyGen, у вас, вроде, просто одинаковые строки ищет. А нужно-то анаграммы, то есть слова, которые состоят из одних и тех же букв: кот - ток - кто, и всё в этом роде.

Deviaphan, красиво

@~~alkagolik~~ · 16.10.2011, 13:42

talis, я взял сложение по модулю чтобы избежать лишних проверок на вхождение, в случае эквивалентно, проверку на вхождение. Ну надо же уметь нестандартно мыслить Deviaphan давайте типа что ли тренинг на проявление смекалки

а то я никак не мог увязать хеширование и задачу, а вон как надо

@talis · 16.10.2011, 13:42

Deviaphan, стоп, а с учётом всех сортировок, не мыло ли будет?

@Deviaphan · 16.10.2011, 13:49

Сообщение от alkagolik

я никак не мог увязать хеширование и задачу

Уже увязал или пояснить? Поясню. Это чтобы суммировать не коды символов, а случайные цифры, чтобы меньше совпадений было. Или ксорить вместо суммирования.

Сообщение от talis

Ошибки возможны

Сумма как начальная проверка, оптимизация.

Сообщение от talis

стоп, а с учётом всех сортировок, не мыло ли будет?

Мыла не будет. Будет всё норм.

@KeyGen · 16.10.2011, 15:27

Сообщение от talis

KeyGen, у вас, вроде, просто одинаковые строки ищет. А нужно-то анаграммы, то есть слова, которые состоят из одних и тех же букв: кот - ток - кто, и всё в этом роде.

А если выровнять все слова по алфавиту и регистру, а потом сравнить. Вывод будет одно слово из анаграмм...

@slavik · 16.10.2011, 16:00 **[ТС]**

Непростая задача для меня, который программирование всего пару месяцев изучает.
Если даже у людей с опытом не все получается.

talis, код работает. А как его можно переделать, чтобы использовать using namespace std:
и чтобы в конце в файл записать? И еще - vector обязателен?
Мне главное понять, а не чтобы за меня написали. Да вот без примера понять не получается...
Может еще кто вариантов подкинет. Когда видишь код, то и понимание быстрее приходит.
Кстати, сделал входной файл на 50 слов.

@talis · 16.10.2011, 16:05

slavik, вариант Deviaphan лучше, используйте его.

Добавлено через 49 секунд
vector - это, считайте, тот же массив, только саморасширяющийся. Можно без него, но зачем?

@slavik · 16.10.2011, 16:12 **[ТС]**

Сообщение от talis

slavik, вариант Deviaphan лучше, используйте его.

Еще бы понять, как его реализовать...

@talis · 16.10.2011, 16:15

slavik, для сортировки используйте std::sort( начало_диапазона, конец_диапазона ). В случае с контейнерами STL (vector тот же) соответствующие итераторы можно получить через vec.begin() и vec.end(). А вообще, http://cplusplus.com/reference. Там есть поиск. Ищите std::string, std:: pair, std::sort и прочие.

@slavik · 17.10.2011, 08:40 **[ТС]**

буду рыться...

Добавлено через 4 часа 4 минуты

бьюсь - не получается...
А можно доделать тот код программы, который я написал (см. в начале)?
Дело в том, что препод хотел именно так, хоть по другому и красивей.
Да и не учили мы еще всего остального.
А там я хоть алгоритм понимаю. С технической частью проблемы.
Люди, help...
Помогите написать работающий код...

Добавлено через 12 часов 9 минут
sos...sos...sos...

@Deviaphan Делаю внезапно и красиво 1313 / 1228 / 72 Регистрация: 22.03.2011 Сообщений: 3,744
	16.10.2011, 13:49	14
	Сообщение от alkagolik я никак не мог увязать хеширование и задачу Уже увязал или пояснить? Поясню. Это чтобы суммировать не коды символов, а случайные цифры, чтобы меньше совпадений было. Или ксорить вместо суммирования. Сообщение от talis Ошибки возможны Сумма как начальная проверка, оптимизация. Сообщение от talis стоп, а с учётом всех сортировок, не мыло ли будет? Мыла не будет. Будет всё норм. 0

@slavik 0 / 0 / 0 Регистрация: 11.09.2011 Сообщений: 15
	16.10.2011, 16:12 [ТС]	18
	Сообщение от talis slavik, вариант Deviaphan лучше, используйте его. Еще бы понять, как его реализовать... 0

@Deviaphan Делаю внезапно и красиво 1313 / 1228 / 72 Регистрация: 22.03.2011 Сообщений: 3,744
	16.10.2011, 08:56	4
	Вместо кодов символов можно суммировать коды из хэш таблицы. Меньше ложных совпадений будет. И заглавные буквы можно будет "приравнять" к строчным. 0

@~~alkagolik~~ Заблокирован
	16.10.2011, 09:39	5
	slavik, дайте входной файл потестировать 0

@Deviaphan Делаю внезапно и красиво 1313 / 1228 / 72 Регистрация: 22.03.2011 Сообщений: 3,744
	16.10.2011, 13:35	10
	Сообщение от talis Интересно было бы увидеть более красивое решение. Создаётся массив пар pair<string,string>. Вторым заносится слово, первым это же слово, но отсортированное по буквам без учёта регистра. Массив сортируется по первому в паре. Дальше всё очевидно. 2

@talis 794 / 546 / 61 Регистрация: 11.05.2010 Сообщений: 1,298 Записей в блоге: 1
	16.10.2011, 13:36	11
	Ребят, ну через сумму решать - это же немного не то. 2 + 8 == 1 + 9 == 5 + 5 == 3 + 7 и так далее. Ошибки возможны KeyGen, у вас, вроде, просто одинаковые строки ищет. А нужно-то анаграммы, то есть слова, которые состоят из одних и тех же букв: кот - ток - кто, и всё в этом роде. Deviaphan, красиво 1

@~~alkagolik~~ Заблокирован
	16.10.2011, 13:42	12
	talis, я взял сложение по модулю чтобы избежать лишних проверок на вхождение, в случае эквивалентно, проверку на вхождение. Ну надо же уметь нестандартно мыслить Deviaphan давайте типа что ли тренинг на проявление смекалки а то я никак не мог увязать хеширование и задачу, а вон как надо 0

@KeyGen 387 / 294 / 21 Регистрация: 07.08.2011 Сообщений: 790 Записей в блоге: 1
	16.10.2011, 15:27	15
	Сообщение от talis KeyGen, у вас, вроде, просто одинаковые строки ищет. А нужно-то анаграммы, то есть слова, которые состоят из одних и тех же букв: кот - ток - кто, и всё в этом роде. А если выровнять все слова по алфавиту и регистру, а потом сравнить. Вывод будет одно слово из анаграмм... 0

@talis 794 / 546 / 61 Регистрация: 11.05.2010 Сообщений: 1,298 Записей в блоге: 1
	16.10.2011, 16:05	17
	slavik, вариант Deviaphan лучше, используйте его. Добавлено через 49 секунд vector - это, считайте, тот же массив, только саморасширяющийся. Можно без него, но зачем? 1

@talis 794 / 546 / 61 Регистрация: 11.05.2010 Сообщений: 1,298 Записей в блоге: 1
	16.10.2011, 16:15	19
	slavik, для сортировки используйте std::sort( начало_диапазона, конец_диапазона ). В случае с контейнерами STL (vector тот же) соответствующие итераторы можно получить через vec.begin() и vec.end(). А вообще, http://cplusplus.com/reference. Там есть поиск. Ищите std::string, std:: pair, std::sort и прочие. 0

@slavik 0 / 0 / 0 Регистрация: 11.09.2011 Сообщений: 15
	17.10.2011, 08:40 [ТС]	20
	буду рыться... Добавлено через 4 часа 4 минуты бьюсь - не получается... А можно доделать тот код программы, который я написал (см. в начале)? Дело в том, что препод хотел именно так, хоть по другому и красивей. Да и не учили мы еще всего остального. А там я хоть алгоритм понимаю. С технической частью проблемы. Люди, help... Помогите написать работающий код... Добавлено через 12 часов 9 минут sos...sos...sos... 0