Форум программистов, компьютерный форум, киберфорум
C++/CLI
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.97/29: Рейтинг темы: голосов - 29, средняя оценка - 4.97
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34

Array<Byte> в System::String

25.04.2014, 10:48. Показов 5996. Ответов 15
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Как преобразовать массив байтов в строку в кодировке UTF-8?
Сейчас делаю вот так:
C++
1
str = System::Text::Encoding::UTF8->GetString(bytes, 0, char_len + 1);
Но он преобразует не всю строку. В массиве лежали байты для строки "Мама мыла раму", а после преобразования я получаю "Мама мы�". В чем проблема?
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
25.04.2014, 10:48
Ответы с готовыми решениями:

Как преобразовать System::String в System::String^
Как преобразовать System::String в System::String^? Явный пример: return (String(temp)); temp - массив wchar_t, пишет ошибку:

Преобразование между типами System::String, char*, wchar_t*, std::string и др.
При написании кода, взаимодействующего как с .NET и управляемым кодом, так и с неуправляемым кодом (такими как стандартные библиотеки C и...

Конфузы с русскими буквами при переводе из System::String^ в std::string
Использую такую конструкцию: string stdstr; for(int i=0;i&lt;sysstr-&gt;Length;++i) stdstr+=sysstr; Для английского текста все...

15
Администратор
Эксперт .NET
 Аватар для tezaurismosis
9673 / 4825 / 763
Регистрация: 17.04.2012
Сообщений: 9,664
Записей в блоге: 14
28.04.2014, 16:49
iPet3o, проверьте длину char_len, видимо, он меньше предполагаемой длины строки.
Проблема может быть из-за разница размеров символов: в строке каждый символ (т.е. char) по 16 бит, а переменная типа byte - 8 бит, попробуйте умножить размер на 2.
0
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
28.04.2014, 17:22  [ТС]
Цитата Сообщение от tezaurismosis Посмотреть сообщение
iPet3o, проверьте длину char_len, видимо, он меньше предполагаемой длины строки.
Проблема может быть из-за разница размеров символов: в строке каждый символ (т.е. char) по 16 бит, а переменная типа byte - 8 бит, попробуйте умножить размер на 2.
Это было первой же идеей, но в таком случае на выходе я получаю пустую строку длиной 0. Да и при чем тут размер типа данных если он преобразует массив в строку поэлементно?

Добавлено через 44 секунды
и char имеет размер 1 байт, в с/с++ по крайней мере
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18263 / 14188 / 5366
Регистрация: 17.03.2014
Сообщений: 28,875
Записей в блоге: 1
28.04.2014, 18:31
iPet3o, во-первых, нужно знать что существуют многобайтовые и однобайтовые кодировки. Кодировка UTF8 является многобайтовой и может использовать до 4 байтов для представления одного символа. Более того - количество байтов на один символ внутри одной строки может меняться. Например, если в UTF8 строке одновременно есть символы латинского алфавита и кириллицы.

Во-вторых, тип char из C/C++ это символ однобайтововой кодировки и именно поэтому он занимает 1 байт. В то же время есть типы wchar_t, TCHAR для работы с многобайтовыми кодировками.

В-третьих, при чтениии по частям и интерпретации текстового файла в многобайтовой кодировке следует использовать класс Decoder который умеет сохранять состояние между вызовами. Ведь при чтении по частям возможно ситуация когда в конце буфера будет неполная последовательность байтов. Общий алгоримт такой: читаем последовательность байтов в массив, определяем кол-во символов которые можно декодировать с помощью метода GetCharCount(), выделяем память под массив символов, декодируем массив байтов в массив символов с помощью GetChars(), приклеиваем их к строке. Повторяем до конца файла. Вот пример:
Кликните здесь для просмотра всего текста
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
array<Byte>^ buf = Encoding::UTF8->GetBytes("Мама мыла раму");
 
// Специально бъем буфер так чтобы байты для одного из символов были в разных буферах
const int splitIndex = 10;
array<Byte>^ buf1 = Enumerable::ToArray(Enumerable::Take<Byte>(buf, splitIndex));
array<Byte>^ buf2 = Enumerable::ToArray(Enumerable::Skip<Byte>(buf, splitIndex));
 
StringBuilder^ sb = gcnew StringBuilder();
Decoder^ utf8decoder = Encoding::UTF8->GetDecoder();
array<wchar_t>^ decodedChars;
int charCount;
 
charCount = utf8decoder->GetCharCount(buf1, 0, buf1->Length);
decodedChars = gcnew array<wchar_t>(charCount);
utf8decoder->GetChars(buf1, 0, buf1->Length, decodedChars, 0);
sb->Append(decodedChars);
 
charCount = utf8decoder->GetCharCount(buf2, 0, buf2->Length);
decodedChars = gcnew array<wchar_t>(charCount);
utf8decoder->GetChars(buf2, 0, buf2->Length, decodedChars, 0);
sb->Append(decodedChars);
 
//
String^ result = sb->ToString();
Console::WriteLine(result);
0
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
28.04.2014, 20:38  [ТС]
В моем случае есть массив байтов, в них хранятся коды для символов UTF-8 в однобайтовой кодировке (всегда считал что 8 в названии и означает один байт), но при преобразовании этого массива получается какая-то фигня.
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18263 / 14188 / 5366
Регистрация: 17.03.2014
Сообщений: 28,875
Записей в блоге: 1
29.04.2014, 00:12
iPet3o, ты заблуждаешься. Кодировка UTF-8 принадлежит семейству Unicode и является многобайтовой. Цифра 8 говорит о минимальном количестве битов выделяемых для хранения символа. Так для арабских цифр, букв латинского алфавита и символов пунктуации используется один байт; для кириллицы - два; для японского алфавита 4 или даже 6 байтов. При этом, повторюсь, кол-во байтов может быть разным если в строке встречаются символы из разных языков. Поэтому совет tezaurismosis умножать на 2 (то есть исходить из того что 1 символ = 2 байтам) является неверным. Именно поэтому твой код неправильно декодирует русский текст - в буфер попадают не все байты для символа и попытка интерпретировать этот байт как символ приводит к некорректному результату. Пример который я привел вопроизводит эту ситуацию, но справляется с ней благодаря использованию класса Decoder который декодирует только полный набор байтов, а те что не удалось пока разбрать оставляет на будущее.
0
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
29.04.2014, 00:19  [ТС]
дело в том, что такое происходит не только с русским текстом, а вообще с любым. "qqq" станет "q�", "11" == "1�" и т.д.
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18263 / 14188 / 5366
Регистрация: 17.03.2014
Сообщений: 28,875
Записей в блоге: 1
29.04.2014, 00:22
iPet3o, надо видеть весь код чтобы точно понять проблему, но у меня вызывает подозрение аргумент char_len + 1, который ты передаешь функции GetString
0
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
29.04.2014, 00:24  [ТС]
в последний байт я записываю '\0' иначе вообще ничего не печатается.
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18263 / 14188 / 5366
Регистрация: 17.03.2014
Сообщений: 28,875
Записей в блоге: 1
29.04.2014, 00:29
iPet3o, в .NET не нужно использовать \0 в качестве конца строки. Он может понадобиться разве что при взаимодействии с неуправляемым кодом.

Приведи весь свой код чтения данных в массив и декодирования строки.
0
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
29.04.2014, 00:35  [ТС]
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
//метод, откуда вызывается функция преобразования в битовое поле
array<Byte>^ encodedBytes = Encoding::UTF8->GetBytes(string);
int len = string->Length;
Bitfield data(fromByte(encodedBytes, len));
//
 
Bitfield GraphicalCode::fromByte(array<Byte> ^ bytes, int len)
{
    Bitfield res(len * 8);
    //
    for (int i = 0; i < len; i++)
    {
        Bitfield * tmp = new Bitfield(8);
        tmp->SetField(bytes[i]);
        res.InsField(*tmp, i * 8);
        delete tmp;
    }
    //
    return res;
}
 
//Тут декодируем битовое поле назад в строку
tmp = new Bitfield(work->subField(3 + 4 + field_size, data_len));
array<System::Byte> ^ bytes = gcnew array<Byte>(char_len);
for (int j = 0; j < char_len; j++)
{
    Bitfield * read = new Bitfield(tmp->subField(j * 8, 8));
    bytes[j] = read->getMember();
    delete read;
}
str = System::Text::Encoding::UTF8->GetString(bytes, 0, bytes->Length);
//
Добавлено через 2 минуты
OwenGlendower, как-то так
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18263 / 14188 / 5366
Регистрация: 17.03.2014
Сообщений: 28,875
Записей в блоге: 1
29.04.2014, 01:17
iPet3o, по этому огрызку опять трудно что-то понять. Можно только продолжать гадать. В строке №4 ты передаешь неправильное кол-во байтов. Следует передавать encodedBytes->Length, а не string->Length. Далее непонятно что делается с переменной data, откуда берутся данные для конструктора Bitfield в строке №23. Выложи короткий пример иллюстрирующий проблему и который я смогу откомпилировать и запустить.

Раскажи также что именно ты пытаешься сделать? Это какой-то кодировщик где байты строки как-то преобразуются, а потом переводятся обратно в строку?
0
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
29.04.2014, 01:23  [ТС]
Лабораторная работа для универа. Некое подобие QR кода.
Вложения
Тип файла: zip Graphical Code.zip (24.4 Кб, 11 просмотров)
0
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
29.04.2014, 01:27  [ТС]
Сначала создаем код (выбираем тип кодирования Byte), сохраняем, открываем в соответствующей форме.

P.S. интерфейс ужасен, а код еще ужаснее
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18263 / 14188 / 5366
Регистрация: 17.03.2014
Сообщений: 28,875
Записей в блоге: 1
29.04.2014, 02:07
Лучший ответ Сообщение было отмечено iPet3o как решение

Решение

iPet3o, замена int len = string->Length; на int len = encodedBytes->Length; в методе GraphicalCode::Generate() вроде решило проблему. Дальше смотреть не стал.

Запомни раз и навсегда - UTF8 многобайтовая кодировка. Кол-во байтов не обязано совпадать с кол-вом символов!
1
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
29.04.2014, 10:03  [ТС]
Спасибо огромное, недели две над этой проблемой мучился.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
29.04.2014, 10:03
Помогаю со студенческими работами здесь

Как конвертировать System::String в std::string?
Как конвертировать system::string в std::string? А лучше сразу system::string в int.

Преобразование System::String^ в std::string
Здравствуйте. Как можно преоброзовать System String^ в std::string Дело в том что получение имени пользователя происходит в поле System...

System::String^ vs stl::std::string
В консольном варианте есть программа, которая получает с экрана строку типа string, работает с ней и выдает результат. Необходимо все...

Конвертация из System::String^ в std::string
как перевести из System::String^ в std::srting

Как преобразовать тип System::String ^ в string? (или что можно сделать ещё для работы перегруженного оператора ostream::operator<<)
Друзья! В обработчик события Click добавил такой код: std::ofstream file_out (&quot;file.txt&quot;); file_out&lt;&lt;...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
16
Ответ Создать тему
Новые блоги и статьи
Загрузка PNG-файла с альфа-каналом с помощью библиотеки SDL3_image на Android
8Observer8 27.01.2026
Содержание блога SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
влияние грибов на сукцессию
anaschu 26.01.2026
Бифуркационные изменения массы гриба происходят тогда, когда мы уменьшаем массу компоста в 10 раз, а скорость прироста биомассы уменьшаем в три раза. Скорость прироста биомассы может уменьшаться за. . .
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip" Извлеките архив и вы увидите. . .
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д. Сборка примера Скачайте. . .
Использование SDL3-callbacks вместо функции main() на Android, Desktop и WebAssembly
8Observer8 24.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
моя боль
iceja 24.01.2026
Выложила интерполяцию кубическими сплайнами www. iceja. net REST сервисы временно не работают, только через Web. Написала за 56 рабочих часов этот сайт с нуля. При помощи perplexity. ai PRO , при. . .
Модель сукцессии микоризы
anaschu 24.01.2026
Решили писать научную статью с неким РОманом
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru