Символьные литералы

@Jzx · Регистрация: 31.12.2017

Author24 — интернет-сервис помощи студентам

C++

#include <iostream>
using namespace std;
 
int main()
{
    char ch=36;
    cout << ch;
}

Программа печатает доллар. Тестировал здесь: http://www.cpp.sh/

А почему 36 это доллар? Зависит ли это:
от компилятора?
от системы?
от устройства?
от кодировки, в которой сохранён исходник?

@Mightsoul · 23.12.2018, 18:39

Таблица ASCII.

@Jzx · 24.12.2018, 21:29 **[ТС]**

Хорошо, вот имеется другой код:

C++

#include <iostream>
using namespace std;
 
int main()
{
    char ch='æ';
    cout << 1*ch;
}

Программа печатает -90. Я хочу понять, как получилось число -90, и как вообще в таких случаях устанавливается соответствие между символом в исходнике и числом из диапазона char.

Добавлено через 9 минут
Ой, что-то здесь в кавычках не то пропечаталось. В оригинале я инициализировал переменную ch значением 'æ'.

Добавлено через 3 минуты
Если кого-то интересуют warning-и, которые были получены при компиляции кода, то вот warning-и:

6:13: warning: multi-character character constant [-Wmultichar]
In function 'int main()':
6:13: warning: overflow in implicit constant conversion [-Woverflow]

@valen10 · 24.12.2018, 21:33

Сообщение от Jzx

хочу понять, как получилось число -90, и как вообще в таких случаях устанавливается соответствие между символом в исходнике и числом

Вам уже дали подсказку: таблица кодировки. Сейчас в большинстве случаев для кодов [0;127] используется ASCII, для других кодов необходимо смотреть соответствующую таблицу кодировки. Это может быть Windows-1251 (у вас скорее всего она), UTF-8 или другая.

Сообщение от Jzx

char ch='Г¦';

Это неправильно. Один символ должен определяться одним символом, а у вас написано два.

@Jzx · 24.12.2018, 21:51 **[ТС]**

Сообщение от valen10

Это неправильно. Один символ должен определяться одним символом, а у вас написано два.

æ — это один символ

Сообщение от valen10

Вам уже дали подсказку: таблица кодировки. Сейчас в большинстве случаев для кодов [0;127] используется ASCII, для других кодов необходимо смотреть соответствующую таблицу кодировки. Это может быть Windows-1251 (у вас скорее всего она), UTF-8 или другая.

Мне не дали подсказки: всевозможных символов сотни тысяч по миру, если не миллионы. При этом стандарт гарантирует лишь 256 кодов, которые можно хранить в char.

@valen10 · 24.12.2018, 22:01

Сообщение от Jzx

æ — это один символ

Однако у вас там заглавная Г и изломанная вертикальная черта ¦. Считаете, что нет разницы?

Сообщение от Jzx

всевозможных символов сотни тысяч по миру, если не миллионы. При этом стандарт гарантирует лишь 256 кодов, которые можно хранить в char.

Это как-то противоречит одно другому?

@Jzx · 24.12.2018, 22:18 **[ТС]**

Сообщение от valen10

Однако у вас там заглавная Г и изломанная вертикальная черта ¦.

Это не у меня, это на форуме. Я набрал другой символ в своём сообщении.

Сообщение от valen10

Считаете, что нет разницы?

Задайте этот вопрос через форму обратной связи: https://www.cyberforum.ru/sendmessage.php

Сообщение от valen10

Это как-то противоречит одно другому?

Не противоречит, но есть проблема: в исходниках вы можете набрать одни символы, а после компиляции в консольном выводе получить совершенно другие. Мне хотелось бы понять, как обойти эту проблему и сам механизм её возникновения.

@valen10 · 24.12.2018, 22:32

Вот вам информация для размышления. Есть такая программа:

C++

#include <iostream>
#include <cstring>
#ifdef _WIN32
#include <Windows.h>
#endif
using namespace std;
 
int main() {
#ifdef _WIN32
    SetConsoleCP(1251);
    SetConsoleOutputCP(1251);
#endif
 
    char str[] = "English && Русский";
    cout << str << endl;
    cout << "Length: " << strlen(str) << endl;
 
    for (char c : str) {
        cout << (int)c << " ";
    }
 
    cout << endl;
 
#ifdef _WIN32
    system("pause");
#endif
    return 0;
}

Вопрос: чему равна длина строки и какие коды будут напечатаны? Рекомендую сначала подумать и сделать предположение. Затем скопировать и запустить код, чтобы проверить свое предположение. Правильный ответ под спойлером.

Кликните здесь для просмотра всего текста

Невозможно дать однозначный ответ, т.к. результат зависит от используемой кодировки.

Можно предположить, что длина строки равна 18, т.к. в ней именно столько букв. И при запуске в Windows результат скорее всего совпадет, т.к. там основной кодировкой является однобайтовая Windows-1251 (национальный вариант ASCII), которая позволяет закодировать всего 256 различных символов, включая служебные.

Результат в Linux окажется иным, поскольку основной кодировкой там является многобайтовая UTF-8. Функция strlen() на деле считает не количество букв, а количество ненулевых кодов.

Можно также заметить, что первые 11 кодов в обоих случаях одинаковые, т.к. английские буквы и некоторые символы и там, и там кодируются младшей половиной таблицы ASCII.

На Википедии есть такая таблица.

Находим в ней заглавную английскую E, ей соответствует код 0x45 (69 в десятичной системе). Смотрим на вывод программы: первый код 69. И так далее для остальных букв. Надеюсь, понятно объяснил.

@Jzx · 24.12.2018, 22:49 **[ТС]**

valen10, вы предполагаете, что мне известно, как работают функции SetConsoleCP, SetConsoleOutputCP и директивы #ifdef и #endif. Увы, это не так: я начал изучать язык относительно недавно.

Я думаю (в попытках самостоятельно ответить на свой вопрос), что для достижения правильного результата необходимо, чтобы кодировка командной строки совпадала с кодировкой исходника.

valen10, насчёт вашего вопроса: увы, не могу ответить ничего вразумительного. Для ответа мне требуется знать те возможности языка, которые вы используете в своём коде.

@valen10 · 24.12.2018, 22:55

Jzx, вы смотрите не на ту часть программы. SetConsoleCP и SetConsoleOutputCP меняют кодировку в консоли, это можно было поискать в интернете.

Сообщение от Jzx

Для ответа мне требуется знать те возможности языка, которые вы используете в своём коде.

Сделать предположение о длине строки можно было просто посчитав количество букв. Если ничего не делать, то останется только топтаться на месте.

@DrOffset · 24.12.2018, 23:16

Jzx, для начала вдумчиво прочитать это.

@Jzx · 25.12.2018, 12:15 **[ТС]**

Сообщение от valen10

Результат в Linux окажется иным, поскольку основной кодировкой там является многобайтовая UTF-8. Функция strlen() на деле считает не количество букв, а количество ненулевых кодов.

Я, кажется, понял в чем дело: 25-18=7. Эти 7 байт есть дополнительные байты, необходимые для хранения 7 русских букв. strlen подсчитывает число байт, необходимых для хранения всех символов, кроме завершающего.

@valen10 · 25.12.2018, 12:37

Jzx, верно, хороший вывод. Почитайте еще про Unicode (Юникод: необходимый практический минимум для каждого разработчика), чтобы до конца разобраться. Это довольно хорошая штука, если вы хотите использовать любые символы без риска получить кашу из кракозябр. Правда консоль Windows его не переваривает, в ней можно использовать только 256 символов текущей кодовой таблицы.

Связана ли кодировка вывода программы с кодировкой исходника? Похоже, что нет. Последние версии Visual Studio позволяют хранить (и по умолчанию так и делают) исходник в UTF-8, однако после компмляции вывод текста происходит в кодировке Windows-1251 (для русской версии системы). При этом символы конвертируются, если для них есть соответствующие символы в текущей таблице. Если же какого-то символа там нет, вместо него ставится знак ?.

@Jzx · 25.12.2018, 12:48 **[ТС]**

Сообщение от valen10

Связана ли кодировка вывода программы с кодировкой исходника? Похоже, что нет.

В смысле? Ведь char — это ведь целочисленный формат. Компилятор должен преобразовывать символы исходника в байты памяти в зависимости от кодировки исходника. Дальше эти байты на этапе исполнения программы считываются и выводятся в консоль в соответствии с той кодировкой, которая используется в консоли.

Что не так?

@valen10 · 25.12.2018, 12:50

К строковым литералам кстати можно добавить префикс u8, чтобы явно сообщить о своем намерении использовать кодировку UTF-8, но консоли Windows это тоже не понравится. Тут обсуждали значения префиксов и возможности C++ по работе с разными кодировками. Посмотрите, если интересно.

@Jzx · 25.12.2018, 12:51 **[ТС]**

valen10, вы имели в виду, что информация о том, как был закодирован исходник, теряется на этапе компиляции?

@valen10 · 25.12.2018, 13:07

Сообщение от Jzx

Что не так?

Где сказано, что компилятор должен делать именно так? Кодировка исходника может быть и другой, но это не должно влиять на результат компиляции. Файлы исходника анализируются по содержимому, формат их хранения не важен. Строки и переводятся в байты. Только вот не верно, что они потом выводятся в соответствии с кодировкой консоли. Они выводятся точно те же, что и были записаны на этапе компиляции, а уже консоль рисует графическое представление символов в соответствии со своей таблицей кодировки. А в разных таблицах одним и тем же кодам могут соответствовать разные символы. Если эти таблицы не совпадут, вы увидите совсем не то, что ожидали.

@Jzx · 25.12.2018, 16:56 **[ТС]**

Сообщение от valen10

Строки и переводятся в байты.

По каким правилам? Каким способом?

Сообщение от valen10

Только вот не верно, что они потом выводятся в соответствии с кодировкой консоли. Они выводятся точно те же, что и были записаны на этапе компиляции,

Что здесь означает слово "они"? Символы, или байты, или что-то ещё?

Добавлено через 2 часа 21 минуту
Я запутался окончательно.

@DrOffset · 25.12.2018, 21:06

Не по теме:

Сообщение от valen10

Почитайте еще про Unicode

Я же выше на эту же статью дал ссылку :)

Добавлено через 13 минут
Вопросы автора похожи на вопросы человека открывшего книгу с середины.

Сообщение от Jzx

По каким правилам? Каким способом?

В соответствии с кодовой страницей для кодировки, в которой записан файл и которую понимает компилятор. Также для wchar_t сначала применяется преобразование "предпочитаемая кодировка файла"->utf-16 или "предпочитаемая кодировка файла"->utf-32, в зависимости от принятой для wchar_t кодировки (это зависит от ОС, в Linux - wchar_t традиционно хранит UTF-32, в Windows - UTF-16).
"предпочитаемая кодировка файла" - это такая кодировка, в которой компилятор ожидает увидеть символы литералов. Например для GCC - это UTF-8. Для VC++ - это локальная кодировка системы (т.е. CP1251 для русской локализации Windows). Предпочитаемая кодировка как правило может быть изменена соответствующими ключами компилятора. В любом случае результатом будет некий набор байт. Символ - это лишь графическое представление для пользователя, не более того.

@Jzx · 25.12.2018, 21:07 **[ТС]**

Сообщение от DrOffset

Вопросы автора похожи на вопросы человека открывшего книгу с середины.

Какую книгу по C++ вы можете рекомендовать, чтобы в ней эти вопросы были подробно разобраны?

@Jzx -47 / 3 / 0 Регистрация: 31.12.2017 Сообщений: 204
	25.12.2018, 12:48 [ТС]	14
	Сообщение от valen10 Связана ли кодировка вывода программы с кодировкой исходника? Похоже, что нет. В смысле? Ведь char — это ведь целочисленный формат. Компилятор должен преобразовывать символы исходника в байты памяти в зависимости от кодировки исходника. Дальше эти байты на этапе исполнения программы считываются и выводятся в консоль в соответствии с той кодировкой, которая используется в консоли. Что не так? 0

@DrOffset 18842 / 9841 / 2409 Регистрация: 30.01.2014 Сообщений: 17,284
	25.12.2018, 21:06	19
	Не по теме: Сообщение от valen10 Почитайте еще про Unicode Я же выше на эту же статью дал ссылку :) Добавлено через 13 минут Вопросы автора похожи на вопросы человека открывшего книгу с середины. Сообщение от Jzx По каким правилам? Каким способом? В соответствии с кодовой страницей для кодировки, в которой записан файл и которую понимает компилятор. Также для wchar_t сначала применяется преобразование "предпочитаемая кодировка файла"->utf-16 или "предпочитаемая кодировка файла"->utf-32, в зависимости от принятой для wchar_t кодировки (это зависит от ОС, в Linux - wchar_t традиционно хранит UTF-32, в Windows - UTF-16). "предпочитаемая кодировка файла" - это такая кодировка, в которой компилятор ожидает увидеть символы литералов. Например для GCC - это UTF-8. Для VC++ - это локальная кодировка системы (т.е. CP1251 для русской локализации Windows). Предпочитаемая кодировка как правило может быть изменена соответствующими ключами компилятора. В любом случае результатом будет некий набор байт. Символ - это лишь графическое представление для пользователя, не более того. 0

@Mightsoul El. Psy. Congroo. 110 / 92 / 32 Регистрация: 09.01.2018 Сообщений: 344
	23.12.2018, 18:39	2
	Таблица ASCII. 0

@valen10 Параллельный Кот 1905 / 827 / 350 Регистрация: 25.03.2016 Сообщений: 2,045
	24.12.2018, 21:33	4
	Сообщение от Jzx хочу понять, как получилось число -90, и как вообще в таких случаях устанавливается соответствие между символом в исходнике и числом Вам уже дали подсказку: таблица кодировки. Сейчас в большинстве случаев для кодов [0;127] используется ASCII, для других кодов необходимо смотреть соответствующую таблицу кодировки. Это может быть Windows-1251 (у вас скорее всего она), UTF-8 или другая. Сообщение от Jzx char ch='Г¦'; Это неправильно. Один символ должен определяться одним символом, а у вас написано два. 0

@Jzx -47 / 3 / 0 Регистрация: 31.12.2017 Сообщений: 204
	24.12.2018, 21:51 [ТС]	5
	Сообщение от valen10 Это неправильно. Один символ должен определяться одним символом, а у вас написано два. æ — это один символ Сообщение от valen10 Вам уже дали подсказку: таблица кодировки. Сейчас в большинстве случаев для кодов [0;127] используется ASCII, для других кодов необходимо смотреть соответствующую таблицу кодировки. Это может быть Windows-1251 (у вас скорее всего она), UTF-8 или другая. Мне не дали подсказки: всевозможных символов сотни тысяч по миру, если не миллионы. При этом стандарт гарантирует лишь 256 кодов, которые можно хранить в char. 0

@valen10 Параллельный Кот 1905 / 827 / 350 Регистрация: 25.03.2016 Сообщений: 2,045
	24.12.2018, 22:01	6
	Сообщение от Jzx æ — это один символ Однако у вас там заглавная `Г` и изломанная вертикальная черта `¦`. Считаете, что нет разницы? Сообщение от Jzx всевозможных символов сотни тысяч по миру, если не миллионы. При этом стандарт гарантирует лишь 256 кодов, которые можно хранить в char. Это как-то противоречит одно другому? 0

@Jzx -47 / 3 / 0 Регистрация: 31.12.2017 Сообщений: 204
	24.12.2018, 22:18 [ТС]	7
	Сообщение от valen10 Однако у вас там заглавная Г и изломанная вертикальная черта ¦. Это не у меня, это на форуме. Я набрал другой символ в своём сообщении. Сообщение от valen10 Считаете, что нет разницы? Задайте этот вопрос через форму обратной связи: https://www.cyberforum.ru/sendmessage.php Сообщение от valen10 Это как-то противоречит одно другому? Не противоречит, но есть проблема: в исходниках вы можете набрать одни символы, а после компиляции в консольном выводе получить совершенно другие. Мне хотелось бы понять, как обойти эту проблему и сам механизм её возникновения. 0

@Jzx -47 / 3 / 0 Регистрация: 31.12.2017 Сообщений: 204
	24.12.2018, 22:49 [ТС]	9
	valen10, вы предполагаете, что мне известно, как работают функции SetConsoleCP, SetConsoleOutputCP и директивы #ifdef и #endif. Увы, это не так: я начал изучать язык относительно недавно. Я думаю (в попытках самостоятельно ответить на свой вопрос), что для достижения правильного результата необходимо, чтобы кодировка командной строки совпадала с кодировкой исходника. valen10, насчёт вашего вопроса: увы, не могу ответить ничего вразумительного. Для ответа мне требуется знать те возможности языка, которые вы используете в своём коде. 0

@valen10 Параллельный Кот 1905 / 827 / 350 Регистрация: 25.03.2016 Сообщений: 2,045
	24.12.2018, 22:55	10
	Jzx, вы смотрите не на ту часть программы. SetConsoleCP и SetConsoleOutputCP меняют кодировку в консоли, это можно было поискать в интернете. Сообщение от Jzx Для ответа мне требуется знать те возможности языка, которые вы используете в своём коде. Сделать предположение о длине строки можно было просто посчитав количество букв. Если ничего не делать, то останется только топтаться на месте. 0

@DrOffset 18842 / 9841 / 2409 Регистрация: 30.01.2014 Сообщений: 17,284
	24.12.2018, 23:16	11
	Jzx, для начала вдумчиво прочитать это. 0

@Jzx -47 / 3 / 0 Регистрация: 31.12.2017 Сообщений: 204
	25.12.2018, 12:15 [ТС]	12
	Сообщение от valen10 Результат в Linux окажется иным, поскольку основной кодировкой там является многобайтовая UTF-8. Функция strlen() на деле считает не количество букв, а количество ненулевых кодов. Я, кажется, понял в чем дело: 25-18=7. Эти 7 байт есть дополнительные байты, необходимые для хранения 7 русских букв. strlen подсчитывает число байт, необходимых для хранения всех символов, кроме завершающего. 0

@valen10 Параллельный Кот 1905 / 827 / 350 Регистрация: 25.03.2016 Сообщений: 2,045
	25.12.2018, 12:37	13
	Jzx, верно, хороший вывод. Почитайте еще про Unicode (Юникод: необходимый практический минимум для каждого разработчика), чтобы до конца разобраться. Это довольно хорошая штука, если вы хотите использовать любые символы без риска получить кашу из кракозябр. Правда консоль Windows его не переваривает, в ней можно использовать только 256 символов текущей кодовой таблицы. Связана ли кодировка вывода программы с кодировкой исходника? Похоже, что нет. Последние версии Visual Studio позволяют хранить (и по умолчанию так и делают) исходник в UTF-8, однако после компмляции вывод текста происходит в кодировке Windows-1251 (для русской версии системы). При этом символы конвертируются, если для них есть соответствующие символы в текущей таблице. Если же какого-то символа там нет, вместо него ставится знак `?`. 0

@valen10 Параллельный Кот 1905 / 827 / 350 Регистрация: 25.03.2016 Сообщений: 2,045
	25.12.2018, 12:50	15
	К строковым литералам кстати можно добавить префикс `u8`, чтобы явно сообщить о своем намерении использовать кодировку UTF-8, но консоли Windows это тоже не понравится. Тут обсуждали значения префиксов и возможности C++ по работе с разными кодировками. Посмотрите, если интересно. 0

@Jzx -47 / 3 / 0 Регистрация: 31.12.2017 Сообщений: 204
	25.12.2018, 12:51 [ТС]	16
	valen10, вы имели в виду, что информация о том, как был закодирован исходник, теряется на этапе компиляции? 0

@valen10 Параллельный Кот 1905 / 827 / 350 Регистрация: 25.03.2016 Сообщений: 2,045
	25.12.2018, 13:07	17
	Сообщение от Jzx Что не так? Где сказано, что компилятор должен делать именно так? Кодировка исходника может быть и другой, но это не должно влиять на результат компиляции. Файлы исходника анализируются по содержимому, формат их хранения не важен. Строки и переводятся в байты. Только вот не верно, что они потом выводятся в соответствии с кодировкой консоли. Они выводятся точно те же, что и были записаны на этапе компиляции, а уже консоль рисует графическое представление символов в соответствии со своей таблицей кодировки. А в разных таблицах одним и тем же кодам могут соответствовать разные символы. Если эти таблицы не совпадут, вы увидите совсем не то, что ожидали. 0

@Jzx -47 / 3 / 0 Регистрация: 31.12.2017 Сообщений: 204
	25.12.2018, 16:56 [ТС]	18
	Сообщение от valen10 Строки и переводятся в байты. По каким правилам? Каким способом? Сообщение от valen10 Только вот не верно, что они потом выводятся в соответствии с кодировкой консоли. Они выводятся точно те же, что и были записаны на этапе компиляции, Что здесь означает слово "они"? Символы, или байты, или что-то ещё? Добавлено через 2 часа 21 минуту Я запутался окончательно. 0

@Jzx -47 / 3 / 0 Регистрация: 31.12.2017 Сообщений: 204
	25.12.2018, 21:07 [ТС]	20
	Сообщение от DrOffset Вопросы автора похожи на вопросы человека открывшего книгу с середины. Какую книгу по C++ вы можете рекомендовать, чтобы в ней эти вопросы были подробно разобраны? 0