Форум программистов, компьютерный форум CyberForum.ru

Посимвольная обработка UTF8 строки - C++

Восстановить пароль Регистрация
 
Рейтинг: Рейтинг темы: голосов - 96, средняя оценка - 4.69
radx
2 / 2 / 0
Регистрация: 31.01.2009
Сообщений: 12
31.01.2009, 16:41     Посимвольная обработка UTF8 строки #1
Добрый день.

пишу программу в С++ в Linux Ubuntu, необходимо обрабатывать строку введенную в UTF-8 (русские символы)

Есть следующий участок:

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
#include <ncurses.h>
#include <unistd.h>
#include <signal.h>
#include <locale.h>
 
//libncursesw5-dev
//g++ -W -Wall -Wextra -pedantic -lncursesw test.cpp
 
void sig(int)
{
}
 
void show_string_in_table(char *string)
{
    while (*string != '\0')
    {
        printw("%c\n",*string);
        string++;
    }
}
 
int main()
{
    //Устанавливаем локаль
    setlocale(LC_ALL, "");
    signal(SIGINT, sig);
 
    char str[255]="qwedas";
 
    initscr();
    show_string_in_table(str);
    getch();
    endwin();
    return 0;
}
Функция выводит строку посимвольно в столбец. Если строка набранна латиницей.
Все хорошо, но такой метод вывода не применим для двухбайтных и более символов, из-за чего киррилица тут не отрабатывает.

Не подскажете как можно реализовать подобную задачу, обрабатывая строку посимвольно ?
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
31.01.2009, 16:41     Посимвольная обработка UTF8 строки
Посмотрите здесь:

C++ Посимвольная обработка строк
C++ Посимвольная запись в строки из файлов
посимвольная обработка строки C++
C++ Посимвольная обработка строк
C++ Посимвольная обработка строк
После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
accept
4838 / 3237 / 165
Регистрация: 10.12.2008
Сообщений: 10,682
31.01.2009, 22:52     Посимвольная обработка UTF8 строки #2
Код
#include <stddef.h>

wchar_t s[] = L"...";
чтобы в консоли русские буквы работали, перевожу её в cp1251, но обычно она в utf-8
radx
2 / 2 / 0
Регистрация: 31.01.2009
Сообщений: 12
01.02.2009, 13:51  [ТС]     Посимвольная обработка UTF8 строки #3
можно примерчик привести? так что-то особо не могу понять.
accept
4838 / 3237 / 165
Регистрация: 10.12.2008
Сообщений: 10,682
01.02.2009, 21:29     Посимвольная обработка UTF8 строки #4
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
 
#include <stdio.h>
#include <locale.h>
#include <stddef.h>
 
/* выводит коды символов unicode */
main()
{
    wchar_t s[10] = L"бђ™бђ‚бђ”";
    int i;
    
    setlocale(LC_CTYPE, "UTF-8");
    for (i = 0; i < 3; i++)
        printf("%.4x\n", s[i]);
    
    /* wprintf(L"%s\n", s); */
    
    return 0;
}
коды выводятся, а wprintf не сработала у меня
radx
2 / 2 / 0
Регистрация: 31.01.2009
Сообщений: 12
02.02.2009, 10:03  [ТС]     Посимвольная обработка UTF8 строки #5
все равно что-то не так полчается...

спасибо за пример. Так же воспользуемся примером:
http://publib.boulder.ibm.com/infoce...zan5mst352.htm

C++
1
2
3
4
5
6
7
8
9
10
#include <wchar.h>
#include <locale.h>
#include <stdarg.h>
 
int main()
{
    setlocale(LC_ALL, "UTF-8");
    wprintf(L"%c\n", L'й');
    return 0;
}
й - набрана в utf-8.

компилем, запускаем:
Код
$ ./a.out
9
почему не работает...

Добавлено через 55 минут 29 секунд
Разобрался

C++
1
2
3
4
5
6
7
8
9
10
11
12
#include <locale.h>
#include <wchar.h>
 
main()
{
    wchar_t s[] = L"Ураа, русский))";
 
    setlocale(LC_CTYPE, "");
    wprintf(L"%ls\n", s);
 
    return 0;
}
нужно использовать опцию l

Все же вопрос открытый - как обратиться к конкретному элементу массива типа wchar_t ?

Добавлено через 14 минут 44 секунды
все, разобрался со всем) спасибо
accept
4838 / 3237 / 165
Регистрация: 10.12.2008
Сообщений: 10,682
02.02.2009, 11:02     Посимвольная обработка UTF8 строки #6
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
#include <stddef.h>
#include <locale.h>
#include <stdio.h>
 
/* выводит html файл с кириллицей */
main()
{
    setlocale(LC_ALL, "UTF-8");
    wchar_t s[] = L"абвгдеёжзийклмнопрстуфчцчшщъыьэюя";
    int i;
    
    printf("\
<HTML>\n\
    <HEAD>\n\
        <TITLE>test</TITLE>\n\
    </HEAD>\n\
    <BODY>\n");
    for (i = 0; i < 33; i++)
        printf("%8c&#%.4d<BR>\n", ' ',  s[i]);
    printf("\
    </BODY>\n\
</HTML>\n");
    
    return 0;
}
сохранил в html вывод нормально, wprintf не выводит

Добавлено через 5 минут 52 секунды
ага тоже получил вывод
wchar_t - это unsigned long (в X11/Xlib.h), в ncurses.h unsigned short), короче проверять через sizeof(wchar_t);

C++
1
2
3
4
5
6
7
8
9
10
11
#include <locale.h>
#include <stddef.h>
#include <wchar.h>
 
/* выводит символы unicode */
main()
{
    setlocale(LC_CTYPE, "");
    wprintf(L"%lc%lc%lc\n", 0x140C, 0x1401, 0x140D);
    return 0;
}
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
10.12.2014, 14:25     Посимвольная обработка UTF8 строки
Еще ссылки по теме:

Работа с текстовым файлом: как посчитать кол-во букв в слове? (посимвольная обработка) C++
Посимвольная обработка текстового файла: распределение всех слов по длине C++
Неправильный вывод UTF8 строки вместе с setw C++

Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
Pingvin001
 Аватар для Pingvin001
1 / 1 / 0
Регистрация: 22.03.2014
Сообщений: 54
10.12.2014, 14:25     Посимвольная обработка UTF8 строки #7
Так юникод можно использовать и в Dev 5 под Windows.
Yandex
Объявления
10.12.2014, 14:25     Посимвольная обработка UTF8 строки
Ответ Создать тему
Опции темы

Текущее время: 17:30. Часовой пояс GMT +3.
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2016, vBulletin Solutions, Inc.
Рейтинг@Mail.ru