Форум программистов, компьютерный форум CyberForum.ru

С++ для начинающих

Войти
Регистрация
Восстановить пароль
 
Рейтинг: Рейтинг темы: голосов - 39, средняя оценка - 4.90
xBot01
9 / 9 / 1
Регистрация: 25.09.2009
Сообщений: 17
#1

Сравнение русских символов. - C++

09.10.2009, 05:41. Просмотров 5159. Ответов 5
Метки нет (Все метки)

Проблема с русскими символами.
Русские символы заносятся в массив занимая две ячейки( 2 байта ). Думаю это связано с UTF-8 кодировкой.
Кто сталкивался с такой проблемой? И кто нашел решение?

P.S. Возможно стоит использовать операции с wchar_t? Операции с многобайтными символами.

xbot01@bear:~/Documents/coding/teach/5g7> ./out
ru_RU.utf8
Введите строку, не более 10 символов:
фф
209 132 209 132
Введеная строка НЕ является палиндромом.

xbot01@bear:~/Documents/coding/teach/5g7> ./out
ru_RU.utf8
Введите строку, не более 10 символов:
aa
97 97
Введеная строка является палиндромом.


Пример программы "Определение палиндрома".
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
/*  7.32.cpp
    Определение палиндрома. */
 
#include <iostream>
using std::cout;
using std::cin;
using std::endl;
 
#include <clocale>
using std::setlocale;
            
// Функция определяет, является ли переданная строка
// палиндромом.
bool testPolindrome( unsigned char[], long );
// Выводит массив на экран.
void displayArray( unsigned char[], long );
// Устанавливает массив переданной строкой.
long setArray( unsigned char[], long );
 
int main ()
{
    // Установим локаль.
    cout << setlocale( LC_CTYPE, "ru_RU.utf8" )<< endl;
    // Максимальный размер массива.
    const long maxSize = 10;
    // Массив для хранения строки.
    unsigned char array[ maxSize ];
    // Переменная для хранения длины массива.
    long sizeArray;
    
    // Задаем массив введеной строкой и запоминаем длину массива.
    sizeArray = setArray( array, maxSize );
    // Покажем введеный массив.
    displayArray( array, sizeArray );
    
    // Отобразим принадлежность хранящейся в массиве строки
    // к палиндрому.
    // Вызываем функцию определения без последнего символа,
    // так как он не участвует в анализе.
    if( testPolindrome( array, sizeArray - 1 ) )
        cout << "Введеная строка является палиндромом." << endl;
    else
        cout << "Введеная строка НЕ является палиндромом." << endl;
 
    return 0;
}
// Выводит массив на экран.
void displayArray( unsigned char array[], long size )
{
    for( long i = 0; i < size; i++ )
        cout << static_cast< long >( array[ i ] ) << ' ';
    cout << endl;
}
// Устанавливает массив переданной строкой.
long setArray( unsigned char array[], long size )
{
    // Переменная для хранения количества введеных символов.
    long count = 0;
    // Выведем приглашение к вводу.
    cout << "Введите строку, не более " << size << " символов: " << endl;
    
    do
    {
        // Считаем символ из введенной строки.
        array[ count ] = cin.get();
        // Если символ "переход на новую строку", то заменим
        // его на конец строки.
        if( array[ count ] == 10 )
            array[ count ] = '\0';
        
        // Добавим к счетчику симоволов еденицу.
        count++;
        // Если введено слишком много символов.
        if( count == size )
        {
            // Сообщим об этом.
            cout << "Введенная строка слишком длинная. Строка обрезана."
                    << endl;
            // Последний символ заменим на конец строки.
            array[ count - 1 ] = '\0';
        }
        // Повторяем пока не встретим сивол конца строки
        // или не исчерпаем запас массива.
    } while( array[ count - 1 ] != '\0' && count < size );
 
    // Если исчерпали запас массива
    if( count == size )
        // вернем значение счетчика,
        return count;
    else
        // иначе вернем на 1 меньше, так как в цикле после чтения
        // последнего символа, счетчик добавили.
        return count - 1;
}
// Функция определяет, является ли переданная строка
// палиндромом.
bool testPolindrome( unsigned char array[], long size )
{
    // Переменная для текущего положения буквы.
    long positionLetter = 0;
    // Предпожим, что строка является палиндромом
    bool polindrome = true;
    
    // Пока строка считается палиндромом и не дошли до середины.
    while( polindrome && ( size - positionLetter ) > 1 )
    {
        // Если текущая буква НЕ равна симетричной с конца
        if(  array[ positionLetter ]
                    != array[ size - positionLetter ] )
            // предположение опровергнуто, строка
            // не ялвляется палиндромом,
            polindrome = false;
        else
            // иначе сместимся на одну букву.
            positionLetter++;
    }
    
    // Вернем результат анализа.
    return polindrome;
}
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
09.10.2009, 05:41     Сравнение русских символов.
Посмотрите здесь:

Сравнение русских слов - C++
Как сравнить русские слова? Имеется вот такой код. При сравнении слов не выводит перевод { case 1: { cout &lt;&lt; &quot;Введите...

Сравнение русских слов - C++
Здравствуйте! Пишу программу для опроса людей (так сказать тест знаний). Так вот, программа задает вопрос, человек должен на него ответить,...

Сравнение русских букв с их кодами - C++
Всем доброго времени суток. Имеется проблема ввода русского языка в консоле(!), при выполнении программы. Суть задания: пользователь...

Ввод русских символов. - C++
Здравствуйте, простите пожалуйста что отвлекаю, я хотел бы спросить как сделать так, что бы русские символы можно было вводить? Я вот...

Вывод на консоль русских символов - C++
wcout должна вроде это делать , но все равно чето не получается. Как граммотно это делается?

Проверка русских символов в строке - C++
Здравствуйте. Эта программка просит ввести строку,и если есть слово, заканчивающиеся на &quot;к&quot; + space, то она должна вывести YES, а если это...

Вывод русских символов в консоль - C++
Чтобы выводить русские буквы в консоли, написал функцию rustext() #include&lt;iostream&gt; using namespace std; #include&lt;windows&gt; ...

Запись русских символов в char - C++
Добрый день господа!!! Мне нужно в поле char name записать 14 русских символов. Вот код: #include &lt;iostream&gt; using std::cout; ...

Ввод русских символов в консоли - C++
Создал консольное приложение, написал примерно вот такой код: int _tmain(int argc, _TCHAR* argv) { setlocale (LC_ALL,&quot;Russian&quot;); ...

Вывод в консоль русских символов - C++
Парни объясните почему так происходит?? почему не выводятся символы от а до р? ps : setlocal rus .... хз как там, уже пробовал добавлять...

Замена русских символов пробелами - C++
Необходимо написать программу по замене русских символов на пробелы(_) Моя программа запускается, но почему-то вместо пробелов какие-то...

ASCII игра из русских символов - C++
В общем решил написать небольшую консольную игру, все игровые объекты будут отображаться символами из таблицы ASCII, интерфейс будет на...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
TanT
эволюционирую потихоньку
465 / 463 / 43
Регистрация: 30.06.2009
Сообщений: 1,399
09.10.2009, 05:59     Сравнение русских символов. #2
Цитата Сообщение от xBot01 Посмотреть сообщение
Русские символы заносятся в массив занимая две ячейки( 2 байта ). Думаю это связано с UTF-8 кодировкой.
Кто сталкивался с такой проблемой? И кто нашел решение?
пардон, не совсем понятен вопрос, покрайней мере мне.
сталкивались с подобной проблемой, наверняка все, кто пытался преобразовывать/работать с русскими символами. Решение чего вы хотие узнать? как считывать русский символ в одну ячейку массива?

заменить
C++
1
 cout << setlocale( LC_CTYPE, "ru_RU.utf8" )<< endl;
на
C++
1
setlocale(LC_ALL, "Russian");
и никаких проблем не возникает (Visual 2008, XP)
xBot01
9 / 9 / 1
Регистрация: 25.09.2009
Сообщений: 17
09.10.2009, 06:23  [ТС]     Сравнение русских символов. #3
Цитата Сообщение от TanT Посмотреть сообщение
никаких проблем не возникает (Visual 2008, XP)
GNU/gcc GNU/Linux (openSuSE 11.1)
Узнать возможные локали можно командой
Код
locale -a
перепробовал все возможные из кирилических.
Не в локали дело. Скорее всего причина в терминале или в системе.
accept
4820 / 3240 / 165
Регистрация: 10.12.2008
Сообщений: 10,682
09.10.2009, 07:51     Сравнение русских символов. #4
Цитата Сообщение от xBot01
Проблема с русскими символами.
Русские символы заносятся в массив занимая две ячейки( 2 байта ). Думаю это связано с UTF-8 кодировкой.
Кто сталкивался с такой проблемой? И кто нашел решение?
там ещё есть кодировка исходника
переходи на wchar_t

C
1
2
3
4
5
6
7
8
9
10
11
12
13
14
#include <stdio.h>
#include <wchar.h>
#include <locale.h>
 
main()
{
    wchar_t *msg = L"Привет, мир!";    
    
    setlocale(LC_CTYPE, "");
    
    wprintf(L"%ls\n", msg); 
    
    return 0;
}
кодировка исходника utf-8, кодировка консоли utf-8

вывод

Код
[guest@station src]$ ./test
Привет, мир!
[guest@station src]$

все функции для широких getwchar, iswlower и так далее

для винды по-другому всё, я не помню нашёл ли стандартное решение
xBot01
9 / 9 / 1
Регистрация: 25.09.2009
Сообщений: 17
09.10.2009, 11:16  [ТС]     Сравнение русских символов. #5
char == byte
С stdin всё нормально, ибо вы выводите оба байта символа(попробуйте считывать только 1 байт).

а вообще C++ style std::wstring.

String processing is a real pain...
Найдено на просторах инета ... кто-то еще советует с Qt вертеться.

Цитата Сообщение от accept
там ещё есть кодировка исходника
переходи на wchar_t
Да у меня вся система в utf-8. Придется с этим wchar_t сейчас разбираться. Можно сказать, только начал изучать программирование, а залез уже по самое не хочу.

UDT: Проблема эта в самой кодировке, менял на KOI8-R прекрасно все функционирует.

Добавлено через 27 минут
РЕШЕНО:
Заменил все типы "unsigned char" на "long" и изменил
Цитата Сообщение от xBot01 Посмотреть сообщение
64 // Считаем символ из введенной строки.
65 array[ count ] = cin.get();
на
C++
1
cin >> array[ count ];
Но не может корректно массив на экран.
accept
4820 / 3240 / 165
Регистрация: 10.12.2008
Сообщений: 10,682
12.10.2009, 02:05     Сравнение русских символов. #6
Цитата Сообщение от xBot01
Да у меня вся система в utf-8.
набери locale в консоли, он выдаст текущие настройки

Код
[guest@station ~]$ locale
LANG=ru_RU.UTF-8
LC_CTYPE="ru_RU.UTF-8"
LC_NUMERIC="ru_RU.UTF-8"
LC_TIME="ru_RU.UTF-8"
LC_COLLATE="ru_RU.UTF-8"
LC_MONETARY="ru_RU.UTF-8"
LC_MESSAGES="ru_RU.UTF-8"
LC_PAPER="ru_RU.UTF-8"
LC_NAME="ru_RU.UTF-8"
LC_ADDRESS="ru_RU.UTF-8"
LC_TELEPHONE="ru_RU.UTF-8"
LC_MEASUREMENT="ru_RU.UTF-8"
LC_IDENTIFICATION="ru_RU.UTF-8"
LC_ALL=
[guest@station ~]$
потом в свойствах консоли установи кодировку utf-8, там обычно стоит по-умолчанию, так что неясно, какая именно по-умолчанию

и уже потом вводи буквы, но сначала сделай буквы внутри программы, чтобы удостовериться, что они правильно выводятся (обычно, если правильно выводятся, то и вводиться будут правильно)

Добавлено через 1 минуту
когда в setlocale используется пустая строка, это значит, что будут использованы текущие настройки консоли
Yandex
Объявления
12.10.2009, 02:05     Сравнение русских символов.
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2017, vBulletin Solutions, Inc.
Рейтинг@Mail.ru