Вывод кириллических символов по их коду в Linux

@ivan_proger · Регистрация: 07.08.2018

Студворк — интернет-сервис помощи студентам

Добрый день!

Стоит следующая задача: рандомно генерировать коды кириллических букв (заглавных и строчных), а дальше выводить код буквы и саму букву. И всё это должно работать на Linux`е.

Хотел работать через коды ASCII, но после первых 128 символов идёт только "�". Помню, что для винды в кодировке 1251 кириллица располагается в кодах со 192 по 255 включительно. Для DOS коды другие. А вот какие коды для семейства систем Linux(дистрибутив Debian)?

Помимо этого на просторах рунета вычитал, что обычный char кодируется 1 байтом, когда кириллица требует целых два, поэтому она не вмещается в обычный char.

@hoggy · 13.04.2021, 14:41

Сообщение от ivan_proger

на просторах рунета вычитал, что обычный char кодируется 1 байтом, когда кириллица требует целых два, поэтому она не вмещается в обычный char.

почитай что такое unicode

@ivan_proger · 13.04.2021, 15:03 **[ТС]**

hoggy, уже. Но не очень понимаю, как рандомно генерировать символы в юникоде.

@hoggy · 13.04.2021, 15:35

Сообщение от ivan_proger

как рандомно генерировать символы в юникоде.

в интернетах можно скачать уже готовую таблицу.
а потом просто рандомно по выбирать из этой таблицы любой произвольный код.

@COKPOWEHEU · 13.04.2021, 15:42

Сообщение от ivan_proger

в кодировке 1251

Забудьте этот атавизм
Если хотите работать с константными строками, без особой обработки, читайте про utf-8, но для вашей задачи лучше utf-32, он же wchar_t:

C
1
2
3
4
5
6
7
8
9
10
11
#include <stdio.h>
#include <wchar.h>
#include <locale.h>
 
int main(){
  setlocale(LC_ALL, "");
  for(wchar_t i=L'а'; i<=L'я'; i++){
    printf("%lc", i);
  }
  printf("\n");
}

@ivan_proger · 13.04.2021, 21:53 **[ТС]**

COKPOWEHEU, спасибо! Не могу пока на практике "потыкать", доберусь до компа - детально изучу. Но вот пока такой вопрос. Можно ли вместо L'a' использовать static_cast<wchar_t>(???)? И если да, то какое целочисленное значение (именно его мне надо рандомно генерировать) подставлять?

@ft4l · 13.04.2021, 23:28

Сообщение от COKPOWEHEU

wchar_t

Ввод-вывод с консоли идёт в utf-8
работать можно только как с байтами... в cygwin например если запусккаю

C
1
2
3
4
5
6
7
8
9
10
11
#include <stdio.h>
#include <locale.h>
 
int main(void) {
    unsigned char buf[64], *r = buf;
    setlocale(LC_CTYPE, "ru_RU.UTF-8");//cygwin
    if (fgets(buf, 64, stdin)) {
        while (*r) printf("%02X ", *(r++));
    }
    return 0;
}

то видно

zzz@zz ~

$ gcc -o ./test.exe ./test.c



zzz@zz ~

$ ./test.exe

Б S

D0 91 20 53 0A

русская буква 2 байта остальное по одному
Чтобы работать с wchar_t нужно сначала преобразовывать ввод в юникод
потом обратно для вывода
... но в wchar_t не все символы помещаются... которые помещаются в utf-8
3-х байтный юникод вроде кодируется в 4-х байтные utf-8
но 3-x вроде нет типов )) только как обрубки от long

Добавлено через 11 минут
Вроде в Perl utf8.h юзается

Добавлено через 28 минут
Оффициально юникод вроде где-то тут поддерживается
github.com/unicode-org/icu/releases/tag/release-69-1
но как-то многовато cpp файлов )

volodin661 · 14.04.2021, 10:52

Сообщение от ivan_proger

Помимо этого на просторах рунета вычитал, что обычный char кодируется 1 байтом, когда кириллица требует целых два, поэтому она не вмещается в обычный char.

када америке придёт кирдык, мы сделаем так, чтобы наша русская буква занимала наш русский один байт,
а все остальные пусть мучаются с двумя и тремя. вот так.

Добавлено через 1 минуту
руникод будет называться.

@COKPOWEHEU · 14.04.2021, 10:55

Сообщение от ivan_proger

Можно ли вместо L'a' использовать static_cast<wchar_t>

Понятия не имею. Я в этих плюсовых извращениях не разбираюсь.
wchar_t также как и char - просто число. Зачем его еще к чему-то приводить? Впрочем, можете вывести как uint32_t и посмотреть диапазон букв

C
1
2
3
4
5
6
7
8
9
#include <stdio.h>
#include <wchar.h>
#include <locale.h>
#include <inttypes.h>
 
int main(){
  setlocale(LC_ALL, "");
  printf("%lc=%"PRIu32"\t%lc=%"PRIu32"\t%lc=%"PRIu32"\t%lc=%"PRIu32"\n", L'А', L'А', L'Я', L'Я', L'а', L'а', L'я', L'я');
}

Сообщение от x_lab

Ввод-вывод с консоли идёт в utf-8
работать можно только как с байтами... в cygwin например если запусккаю

Это у винды постоянно какие-то проблемы с кодировкой. Там надо добавить

C
1
2
3
4
5
6
7
8
9
#ifdef WIN32
    #include <windows.h>
    #include "fcntl.h"
    __attribute__((constructor)) void coninit(){
      SetConsoleCP(CP_UTF8); SetConsoleOutputCP(CP_UTF8);
      _setmode(_fileno(stdout), _O_U8TEXT);
      _setmode(_fileno(stdin), _O_U8TEXT);
    }
  #endif

Сообщение от x_lab

но в wchar_t не все символы помещаются... которые помещаются в utf-8

Опять-таки виндо-специфичные баги, там wchar_t не полноценный, а 16-битный, соответственно и кодировка у них не utf-32 а utf-16, которая ни туда, ни сюда.

Сообщение от x_lab

русская буква 2 байта остальное по одному

Так я с этого и начал: если нужно только хранение, без особой обработки, можно обойтись utf-8. Но если, как ТСу, нужно коды символов преобразовывать, имеет смысл взять utf-32 (wchar_t).
То, во что оно там переводится при вводе-выводе это забота операционной системы и стандартной библиотеки.

@TRam_ · 14.04.2021, 14:33

Сообщение от ivan_proger

Можно ли вместо L'a' использовать static_cast<wchar_t>(???)?

Нельзя. Потому что wchar_t - это тоже число, а не объект символа, потому ему присвоится именно 'a' в той 8-битной кодировке, в которой был сохранён исходный код программы. L'a' гарантирует, что символ будет скомпилирован не в той кодировке, в который исходный код, а именно в utf-16 .

@COKPOWEHEU · 14.04.2021, 15:07

Сообщение от TRam_

L'a' гарантирует, что символ будет скомпилирован не в той кодировке, в который исходный код, а именно в utf-16

Только не в utf-16, а в utf-32, естественно. Для utf-16 скорее модификатор u:

C
1
2
3
4
5
6
7
8
9
10
11
12
#include <stdio.h>
#include <wchar.h>
 
int main(){
  printf("wchar[4]:\t%i\n", sizeof(L"fff"));
  printf("char_u[4]:\t%i\n", sizeof(u"fff"));
  printf("utf-8:  \t%i\n", sizeof("fff"));
  
  printf("ru_wchar[4]:\t%i\n", sizeof(L"ыыы"));
  printf("ru_char_u[4]:\t%i\n", sizeof(u"ыыы"));
  printf("ru_utf-8:\t%i\n", sizeof("ыыы"));
}

Code
1
2
3
4
5
6
7
8
$ gcc main.c
$ ./a.out 
wchar[4]:       16
char_u[4]:      8
utf-8:          4
ru_wchar[4]:    16
ru_char_u[4]:   8
ru_utf-8:       7

Добавлено через 1 минуту
UPD: Хм, для utf-32 оказывается не только L"", но и U"" работает. Надо бы проверить что у них с переносимостью.

Добавлено через 21 минуту
UPD2: Да, в стандарте прописано что
L - wchar_t, без указания размера, зато со спецификатором для printf
u - char16_t, зато без спецификатора для printf
U - char32_t, тоже без спецификатора.

@TRam_ · 14.04.2021, 17:27

Сообщение от COKPOWEHEU

L - wchar_t, без указания размера

В частном случае компилятора мелкомягких - utf-16LE (https://docs.microsoft.com/ru-... w=msvc-160). В случае GCC таки utf-32

@COKPOWEHEU · 14.04.2021, 18:16

Сообщение от ivan_proger

Вывод кириллических символов по их коду в Linux

В данном случае все-таки utf-32.
Ну и ориентироваться на мелкомягкий "стандарт" в любом случае сомнительная идея. Взять хотя бы их аллергию на стандартные функции вроде printf.

Новые блоги и статьи Все статьи Все блоги /
делаю науч статью по влиянию грибов на сукцессию anaschu 13.03.2026 прикрепляю статью	SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++ 8Observer8 10.03.2026 Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:	Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE 8Observer8 10.03.2026 Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .	Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки Neotwalker 08.03.2026 Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages DevAlt 07.03.2026 Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .	Модульный подход на примере F# DevAlt 06.03.2026 В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .	Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование 8Observer8 05.03.2026 Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .	SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D 8Observer8 04.03.2026 Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .

Вывод кириллических символов по их коду в Linux

Решение

Решение

@ivan_proger 3 / 3 / 2 Регистрация: 07.08.2018 Сообщений: 84

	Вывод кириллических символов по их коду в Linux 13.04.2021, 13:02. Показов 12421. Ответов 12 Метки c++, c++ для начинающих, linux, linux debian, кириллица, кодирование, кодировка (Все метки) Добрый день! Стоит следующая задача: рандомно генерировать коды кириллических букв (заглавных и строчных), а дальше выводить код буквы и саму букву. И всё это должно работать на Linux`е. Хотел работать через коды ASCII, но после первых 128 символов идёт только "�". Помню, что для винды в кодировке 1251 кириллица располагается в кодах со 192 по 255 включительно. Для DOS коды другие. А вот какие коды для семейства систем Linux(дистрибутив Debian)? Помимо этого на просторах рунета вычитал, что обычный char кодируется 1 байтом, когда кириллица требует целых два, поэтому она не вмещается в обычный char. 0

@ivan_proger 3 / 3 / 2 Регистрация: 07.08.2018 Сообщений: 84
	13.04.2021, 15:03 [ТС]
	hoggy, уже. Но не очень понимаю, как рандомно генерировать символы в юникоде. 0

@ivan_proger 3 / 3 / 2 Регистрация: 07.08.2018 Сообщений: 84
	13.04.2021, 21:53 [ТС]
	COKPOWEHEU, спасибо! Не могу пока на практике "потыкать", доберусь до компа - детально изучу. Но вот пока такой вопрос. Можно ли вместо L'a' использовать static_cast<wchar_t>(???)? И если да, то какое целочисленное значение (именно его мне надо рандомно генерировать) подставлять? 0