Как массив char[4] перевести в unsigned int?

@prosto_lynx · Регистрация: 09.06.2008

Студворк — интернет-сервис помощи студентам

Есть массив из 4х char символов (4-е байта), нужно его перевести в unsigned int.
Я сделал втупую:

C++
1
2
3
4
5
6
7
        unsigned int B=0;
        long Ex = 256 * 256 * 256;
        for (int i=0; i<4; i++)
        {
                B8 += t[i] * Ex;
                Ex /= 256;
         }

Можно ли это как-то упростить?.. а то уж слишком некрасиво, долго и программу засоряет...

Я мыслю так, т.к. обе переменные (и 4-е char'a, и int) 4-х байтовые, то появилось предположение, что можно, как-нибудь, например, обратиться к char-массиву, сразу записав его в переменную int не преобразовывая?..

@Sergey-K · 06.04.2012, 21:52

C++
1
2
char ch[4] = {'a', 'b', 'c', 'd'};
int i = *(int *)ch;

@George22 · 07.04.2012, 10:26

Sergey-K красиво!

C++
1
2
3
4
5
 char t[4] ={0x04,0x03,0x02,0x01};
 int ex=0;
 
 for(int i=0;i<4;i++)
 ex+=(int)t[i]<<(i<<3);

Добавлено через 12 часов 30 минут
И еще:

C++
1
2
3
4
5
union
{
char t[4];
int i;
} number = {'a','b','c','d'};

Evg · 07.04.2012, 12:56

При этом надо понимать, что код из поста 2 и код с union'ом из поста 3 будут работать только на little-endian машинах. Код из поста 2 надёжно будет работать только на машинах, в которых разрешены невыровненные обращения в память. Intel'овские процессоры удовлетворяют обоим критериям, а потому для "домашнего" использования или для программы, которая будет работать исключительно на Intel'е это канает, но в общем случае - нет

@prosto_lynx · 09.04.2012, 11:52 **[ТС]**

Сообщение от Evg

При этом надо понимать, что код из поста 2 и код с union'ом из поста 3 будут работать только на little-endian машинах. Код из поста 2 надёжно будет работать только на машинах, в которых разрешены невыровненные обращения в память. Intel'овские процессоры удовлетворяют обоим критериям, а потому для "домашнего" использования или для программы, которая будет работать исключительно на Intel'е это канает, но в общем случае - нет

Спасибо, для меня этот вопрос важен.
Я так понял, что little-endian используется не только на интеловских процессорах, а вообще на архитектуре 86?
p.s. Тогда, правильно ли я понимаю, что код из поста 2 всегда будет работать, если прога запущена из-под XP? (Запуск эмулятора XP я не рассматриваю).

Evg · 09.04.2012, 12:40

Сообщение от prosto_lynx

Я так понял, что little-endian используется не только на интеловских процессорах, а вообще на архитектуре 86?

Словом "Intel" я называл архитектуру процессора. Т.е. это все процессоры x86, x64_64, не важно кем произведённые (Intel'ом, AMD, может кто-то ещё выпускает)

Сообщение от prosto_lynx

p.s. Тогда, правильно ли я понимаю, что код из поста 2 всегда будет работать, если прога запущена из-под XP? (Запуск эмулятора XP я не рассматриваю).

Да. Причём независимо от того, реальная это машина или эмулятор.

@bugaboo · 12.06.2017, 10:39

А можно расшифровку способа №1 в 3 посте? его эффективность зависит от процессора?

Добавлено через 3 часа 33 минуты
По зрелом размышлении удалось на основе поста №3 сделать вот такую функцию

C++
1
2
3
4
5
6
7
8
9
unsigned int uintof4b(char buffer[4])
{
    unsigned int x = 0;
    for (int i = 0; i < 4; i++)
    {
        x += (unsigned char)buffer[3 - i] << (i << 3);
    }
    return x;
}

работает с учетом того, что могут встретиться отрицательные charы и возвращает беззнаковый результат. Странно, что для такой простой задачи приходится изобретать такой сложный костыль

Evg · 12.06.2017, 16:19

Сообщение от bugaboo

Странно, что для такой простой задачи приходится изобретать такой сложный костыль

Просто и без изобретения костылей - это использовать memcpy. Подозреваю, что большинство компиляторов сумеют это дело соптимизировать и привести код к тому же состоянию, что и в "сложных" вариантах. Правда, так же как и в других предоставленных вариантах, код получится правильно работающим только на little-endian

@TRam_ · 12.06.2017, 16:39

bugaboo, более правильным подходом был бы

C++
1
2
3
4
5
6
7
8
9
unsigned int uintof4b(char buffer[4])
{
    unsigned int x = 0;
    for (int i = 0; i < 4; i++)
    {
        x |= static_cast<unsigned int>(buffer[3 - i]) << (i * 8);
    }
    return x;
}

хотя не некоторых процессорах (i << 3) работает быстрее чем (i * 8).

Если использовать побитовое "или" вместо "+", то преобразование signed/unsigned теряет смысл. Правда так можно только для данного случая (собираемые байты друг с другом не пересекаются), иначе будет ошибка.

И по логике, если б небыло неяного преобразования из char в int, то в результате операции

C++
1
(unsigned char)buffer[3 - i] << (i << 3)

был бы 0 (при i > 0), т.к. в char всего один байт, и если его смещать, то не вошедшая в этот байт часть пропадёт.

Добавлено через 4 минуты
А стандартный вариант - это всё же использование memcpy -

C++
1
memcpy(&x, buffer, sizeof(int));

Evg · 12.06.2017, 16:49

Сообщение от TRam_

хотя не некоторых процессорах (i << 3) работает быстрее чем (i * 8)

Я бы сказал, что не "на некоторых", а "скорее всего поголовно на всех"

Сообщение от TRam_

Если использовать побитовое "или" вместо "+", то преобразование signed/unsigned теряет смысл

На коротком примере моделируются два случая: один с преобразованием в unsigned, другой без. Как видишь, разница есть. А потому преобразование в unsigned нельзя удалять независимо от того, через or делается сборка результата, или через plus

C
#include <stdio.h>
 
int main (void)
{
  unsigned int x;
  char buffer1 = 255;
 
  x = 0xaa000000;
  x |= (buffer1 << 8);
  printf ("%x\n", x);
 
  x = 0xaa000000;
  x |= ((unsigned char)buffer1 << 8);
  printf ("%x\n", x);
}

Code
$ gcc t.c
$ ./a.out
ffffff00
aa00ff00

@TRam_ · 12.06.2017, 17:39

Evg, спасибо! Действительно неверно представлял себе поведение знаковых чисел при их преобразовании к типу с большим числом байтов. Так что или

C++
1
static_cast<unsigned char>(buffer[3 - i])

или

C++
1
(buffer[3 - i] & 0x000000FF)

@bugaboo · 12.06.2017, 20:21

Evg, я новичок и поэтому могу говорить только на уровне "у меня работает/не работает". Но хотелось бы, чтобы потом оно работало независимо от способа представления данных процессором. Суть у меня в том, что я читаю эти 4 charа из файла MIDI(функцией read), в котором всегда используется big-endian, и они из себя представляют беззнаковый int. Любой из этих байтов может запросто прочитаться как отрицательный (хотя в большинстве случаев таким не является, а является беззнаковым). Есть ли какой-то универсальный способ прочтения 4х байт в int из файла, чтобы результат преобразования был правильным, независимо от того, big-endian или little-endian схема используется в процессоре?
Я же не в космос улетаю, мне всего то надо 4 байта прочитать - откуда берутся такие сложности?

@TRam_ · 12.06.2017, 21:33

bugaboo, сложность в том, что тут
1) идёт преобразование из одного байта в 4. То есть char был 1, а тут ещё три новых добавилось. Если использовать знаковый тип, то все биты новых байтов заполнятся 1цами в случае, если первый бит у него 1ца. Это в любом случае, что для big-endian, что для little-endian. Для большей производительности лучше сделать преобразование в unsigned типа указателя:

C++
1
unsigned char *uns_buffer = reinterpret_cast<unsigned char *>buffer;

2) порядок байтов, то есть, в одних архитектурах процессоров для счёта самыми старшими разрядами считаются первые байты (и далее последующие), а где-то наоборот. То есть в одном будет "0хFA6C9001", а в другом то же число - "0x01906CFA". Соответственно если в стандарте MIDI указан Big Endian, то чтоб производить арифметические операции с этим числом на процессорах x86, тебе нужно переворачивать байты, а если будешь писать например для архитектуры ARM, то переворачивать не нужно и достаточно простого memcpy()

Evg · 12.06.2017, 22:06

Сообщение от bugaboo

Есть ли какой-то универсальный способ прочтения 4х байт в int из файла, чтобы результат преобразования был правильным, независимо от того, big-endian или little-endian схема используется в процессоре?

В варианте с файлом есть как бы два endian'а: endian машины, на которой запущена программа и endian, в котором записаны данные в файле. Нужно просто взять и считать эти 4 байта в целочисленную переменную 4-байтного размера. В случае совпадения endian'ов машины и файла больше ничего делать не надо. Если endian'ы различаются, то байты в числе надо развернуть задом наперёд

Или, что тоже самое. Взять твой вариант из поста #7 и в зависимости от совпадающих или различающихся endian'ов прочитать байты в прямом или обратном порядке. Тут надо немного думать и экспериментировать, если честно, мне уже лениво под вечер

Какой endian у машины, на которой происходит запуск, можно проверить в runtime:

C
unsigned int x = 0x11223344;
char *p = (char*) &x;
if (*p == 0x44)
  little endian;
else
  big endian;

Добавлено через 8 минут

Сообщение от bugaboo

Любой из этих байтов может запросто прочитаться как отрицательный (хотя в большинстве случаев таким не является, а является беззнаковым)

К слову говоря, байт не бывает положительным или отрицательным. Байт - это всего лишь набор битов. А "положительный" и "отрицательный" - это всего лишь трактовки. Для самообразования можешь почитать:

Signed/Unsigned
Signed/Unsigned
Signed/Unsigned
Тип char.Signed/unsigned.Отличие типов данных.

@bugaboo · 14.06.2017, 02:13

Evg, тогда, наверно, такой вариант будет универсальным?

C++
1
2
3
4
5
6
        unsigned char buf[4];
        unsigned int x = 0;
        for (int i = 0; i < 4; i++)
            buf[i] = ifs.get();
        for (int i = 0; i < 4; i++)
            x += buf[3 - i] << (i << 3);

байты считываются заведомо как положительные числа в определенном порядке(файл заведомо big-endian, открыт как бинарный), а х вычисляется как сумма, то есть его представление в памяти не важно. У меня работает ))

@TRam_ · 14.06.2017, 03:00

bugaboo, этот вариант будет работать только на процессорах с little-endian. Но, с другой стороны, полученную на данном компиляторе программу запустить на процессоре с big-endian не удастся - до тех пор пока её специально не скомпилируешь. Вот в этом случае и придётся вспоминать, что "у меня ж там был цикл, в котором надо будет поменять порядок". Но если кросс-платформенность не ожидается, то почему б и нет.
istream::get() возвращает int - http://www.cplusplus.com/refer... tream/get/ - причём сам char там передаётся в беззнаковом виде, так что специально преобразовывать в unsigned char не потребуется (а вот в unsigned int надо). И цикл можно оптимизировать:

C++
1
2
3
        unsigned int x = 0;
        for (int i = 0; i < 4; i++)
            x += static_cast<unsigned int>(ifs.get()) << ((3 - i) << 3);

@bugaboo · 14.06.2017, 06:08

TRam_, большое спасибо, наконец-то получился красивый маленький универсальный код! С getом я действительно сплоховал...
Именно из=за кросс-платформенности я так и упарываюсь.
Последний вопрос - зачем нужен static cast? Почему не использовать приведение типа?

C++
1
2
3
unsigned int x = 0;     
for (__int8 i = 3; i >= 0; i--)
    x += (unsigned int)(ifs.get()) << (i << 3);

у меня работает )

Добавлено через 1 час 3 минуты
И даже вот так отлично работает:

C++
1
2
3
unsigned int x = 0;
for (__int8 i = 3; i >= 0; i--)
    x += (ifs.get()) << (i << 3);

то есть, происходит неявное приведение типа даже с "отрицательными" байтами

@TRam_ · 14.06.2017, 06:44

Сообщение от bugaboo

Почему не использовать приведение типа?

Потому что это приведение типов по стандарту С, а по стандарту С++ приведение типов выполняется с помощью static/const/dynamic/reinterpret_cast.

Сообщение от bugaboo

C++
1
for (__int8 i = 3; i >= 0; i--)

от того, будешь ли использовать int8, или просто int, для 32-разрядного процессора будет почти одинаково. Ну а по поводу порядка (а потому отсутствующего вычитания

Сообщение от bugaboo

И даже вот так отлично работает:

) - да, так будет ещё оптимальнее.

Добавлено через 3 минуты

Сообщение от bugaboo

происходит неявное приведение типа

Я б не сказал. Signed/Unsigned - для сложения/вычитания знаковость/беззнаковость никак не влияет.

@hoggy · 14.06.2017, 07:11

Сообщение от Sergey-K

char ch[4] = {'a', 'b', 'c', 'd'};
int i = *(int *)ch;

Сообщение от George22

Sergey-K красиво!

Code
1
warning: dereferencing type-punned pointer will break strict-aliasing rules [-Wstrict-aliasing]

UB - такое UB.

@bugaboo · 14.06.2017, 07:34

Сообщение от TRam_

Потому что это приведение типов по стандарту С, а по стандарту С++ приведение типов выполняется с помощью static/const/dynamic/reinterpret_cast.

а практическая разница какая-то есть?

Сообщение от TRam_

для сложения/вычитания знаковость/беззнаковость никак не влияет.

тем более хорошо, результат то я получаю правильный )

Сообщение от TRam_

от того, будешь ли использовать int8, или просто int, для 32-разрядного процессора будет почти одинаково

стараюсь не жрать лишнюю память... да и так удобнее ориентироваться

Новые блоги и статьи Все статьи Все блоги /
Символьное дифференцирование igorrr37 13.02.2026 / * Логарифм записывается как: (x-2)log(x^2+2) - означает логарифм (x^2+2) по основанию (x-2). Унарный минус обозначается как ! в-строка - входное арифметическое выражение в инфиксной(обычной). . .	Камера Toupcam IUA500KMA Eddy_Em 12.02.2026 Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .	И ясному Солнцу zbw 12.02.2026 И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.	«Знание-Сила» zbw 12.02.2026 «Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров 8Observer8 12.02.2026 Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .	SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image) 8Observer8 11.02.2026 Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .	SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image 8Observer8 10.02.2026 Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .	Установка Qt-версии Lazarus IDE в Debian Trixie Xfce volvo 10.02.2026 В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .

Как массив char[4] перевести в unsigned int?

Решение

Решение

Evg 21281 / 8305 / 637 Регистрация: 30.03.2009 Сообщений: 22,660 Записей в блоге: 30
	07.04.2012, 12:56
	При этом надо понимать, что код из поста 2 и код с union'ом из поста 3 будут работать только на little-endian машинах. Код из поста 2 надёжно будет работать только на машинах, в которых разрешены невыровненные обращения в память. Intel'овские процессоры удовлетворяют обоим критериям, а потому для "домашнего" использования или для программы, которая будет работать исключительно на Intel'е это канает, но в общем случае - нет 2

@bugaboo -1 / 4 / 0 Регистрация: 12.06.2017 Сообщений: 60
	12.06.2017, 20:21
	Evg, я новичок и поэтому могу говорить только на уровне "у меня работает/не работает". Но хотелось бы, чтобы потом оно работало независимо от способа представления данных процессором. Суть у меня в том, что я читаю эти 4 charа из файла MIDI(функцией read), в котором всегда используется big-endian, и они из себя представляют беззнаковый int. Любой из этих байтов может запросто прочитаться как отрицательный (хотя в большинстве случаев таким не является, а является беззнаковым). Есть ли какой-то универсальный способ прочтения 4х байт в int из файла, чтобы результат преобразования был правильным, независимо от того, big-endian или little-endian схема используется в процессоре? Я же не в космос улетаю, мне всего то надо 4 байта прочитать - откуда берутся такие сложности? 0