|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
||||||
Array<Byte> в System::String25.04.2014, 10:48. Показов 5996. Ответов 15
Метки нет (Все метки)
Как преобразовать массив байтов в строку в кодировке UTF-8?
Сейчас делаю вот так:
0
|
||||||
| 25.04.2014, 10:48 | |
|
Ответы с готовыми решениями:
15
Как преобразовать System::String в System::String^ Преобразование между типами System::String, char*, wchar_t*, std::string и др. Конфузы с русскими буквами при переводе из System::String^ в std::string |
|
Администратор
|
|
| 28.04.2014, 16:49 | |
|
iPet3o, проверьте длину char_len, видимо, он меньше предполагаемой длины строки.
Проблема может быть из-за разница размеров символов: в строке каждый символ (т.е. char) по 16 бит, а переменная типа byte - 8 бит, попробуйте умножить размер на 2.
0
|
|
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
||
| 28.04.2014, 17:22 [ТС] | ||
|
Добавлено через 44 секунды и char имеет размер 1 байт, в с/с++ по крайней мере
0
|
||
|
Администратор
|
||||||
| 28.04.2014, 18:31 | ||||||
|
iPet3o, во-первых, нужно знать что существуют многобайтовые и однобайтовые кодировки. Кодировка UTF8 является многобайтовой и может использовать до 4 байтов для представления одного символа. Более того - количество байтов на один символ внутри одной строки может меняться. Например, если в UTF8 строке одновременно есть символы латинского алфавита и кириллицы.
Во-вторых, тип char из C/C++ это символ однобайтововой кодировки и именно поэтому он занимает 1 байт. В то же время есть типы wchar_t, TCHAR для работы с многобайтовыми кодировками. В-третьих, при чтениии по частям и интерпретации текстового файла в многобайтовой кодировке следует использовать класс Decoder который умеет сохранять состояние между вызовами. Ведь при чтении по частям возможно ситуация когда в конце буфера будет неполная последовательность байтов. Общий алгоримт такой: читаем последовательность байтов в массив, определяем кол-во символов которые можно декодировать с помощью метода GetCharCount(), выделяем память под массив символов, декодируем массив байтов в массив символов с помощью GetChars(), приклеиваем их к строке. Повторяем до конца файла. Вот пример: Кликните здесь для просмотра всего текста
0
|
||||||
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
|
| 28.04.2014, 20:38 [ТС] | |
|
В моем случае есть массив байтов, в них хранятся коды для символов UTF-8 в однобайтовой кодировке (всегда считал что 8 в названии и означает один байт), но при преобразовании этого массива получается какая-то фигня.
0
|
|
|
Администратор
|
|
| 29.04.2014, 00:12 | |
|
iPet3o, ты заблуждаешься. Кодировка UTF-8 принадлежит семейству Unicode и является многобайтовой. Цифра 8 говорит о минимальном количестве битов выделяемых для хранения символа. Так для арабских цифр, букв латинского алфавита и символов пунктуации используется один байт; для кириллицы - два; для японского алфавита 4 или даже 6 байтов. При этом, повторюсь, кол-во байтов может быть разным если в строке встречаются символы из разных языков. Поэтому совет tezaurismosis умножать на 2 (то есть исходить из того что 1 символ = 2 байтам) является неверным. Именно поэтому твой код неправильно декодирует русский текст - в буфер попадают не все байты для символа и попытка интерпретировать этот байт как символ приводит к некорректному результату. Пример который я привел вопроизводит эту ситуацию, но справляется с ней благодаря использованию класса Decoder который декодирует только полный набор байтов, а те что не удалось пока разбрать оставляет на будущее.
0
|
|
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
|
| 29.04.2014, 00:19 [ТС] | |
|
дело в том, что такое происходит не только с русским текстом, а вообще с любым. "qqq" станет "q�", "11" == "1�" и т.д.
0
|
|
|
Администратор
|
|
| 29.04.2014, 00:22 | |
|
iPet3o, надо видеть весь код чтобы точно понять проблему, но у меня вызывает подозрение аргумент char_len + 1, который ты передаешь функции GetString
0
|
|
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
|
| 29.04.2014, 00:24 [ТС] | |
|
в последний байт я записываю '\0' иначе вообще ничего не печатается.
0
|
|
|
Администратор
|
|
| 29.04.2014, 00:29 | |
|
iPet3o, в .NET не нужно использовать \0 в качестве конца строки. Он может понадобиться разве что при взаимодействии с неуправляемым кодом.
Приведи весь свой код чтения данных в массив и декодирования строки.
0
|
|
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
||||||
| 29.04.2014, 00:35 [ТС] | ||||||
OwenGlendower, как-то так
0
|
||||||
|
Администратор
|
|
| 29.04.2014, 01:17 | |
|
iPet3o, по этому огрызку опять трудно что-то понять. Можно только продолжать гадать. В строке №4 ты передаешь неправильное кол-во байтов. Следует передавать encodedBytes->Length, а не string->Length. Далее непонятно что делается с переменной data, откуда берутся данные для конструктора Bitfield в строке №23. Выложи короткий пример иллюстрирующий проблему и который я смогу откомпилировать и запустить.
Раскажи также что именно ты пытаешься сделать? Это какой-то кодировщик где байты строки как-то преобразуются, а потом переводятся обратно в строку?
0
|
|
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
|
| 29.04.2014, 01:23 [ТС] | |
|
Лабораторная работа для универа. Некое подобие QR кода.
0
|
|
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
|
| 29.04.2014, 01:27 [ТС] | |
|
Сначала создаем код (выбираем тип кодирования Byte), сохраняем, открываем в соответствующей форме.
P.S. интерфейс ужасен, а код еще ужаснее
0
|
|
|
Администратор
|
|
| 29.04.2014, 02:07 | |
Сообщение было отмечено iPet3o как решение
Решение
iPet3o, замена int len = string->Length; на int len = encodedBytes->Length; в методе GraphicalCode::Generate() вроде решило проблему. Дальше смотреть не стал.
Запомни раз и навсегда - UTF8 многобайтовая кодировка. Кол-во байтов не обязано совпадать с кол-вом символов!
1
|
|
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
|
| 29.04.2014, 10:03 [ТС] | |
|
Спасибо огромное, недели две над этой проблемой мучился.
0
|
|
| 29.04.2014, 10:03 | |
|
Помогаю со студенческими работами здесь
16
Преобразование System::String^ в std::string System::String^ vs stl::std::string Конвертация из System::String^ в std::string Как преобразовать тип System::String ^ в string? (или что можно сделать ещё для работы перегруженного оператора ostream::operator<<) Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Загрузка PNG-файла с альфа-каналом с помощью библиотеки SDL3_image на Android
8Observer8 27.01.2026
Содержание блога
SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
|
влияние грибов на сукцессию
anaschu 26.01.2026
Бифуркационные изменения массы гриба происходят тогда, когда мы уменьшаем массу компоста в 10 раз, а скорость прироста биомассы уменьшаем в три раза. Скорость прироста биомассы может уменьшаться за. . .
|
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога
SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
|
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога
Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip"
Извлеките архив и вы увидите. . .
|
|
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога
Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д.
Сборка примера
Скачайте. . .
|
Использование SDL3-callbacks вместо функции main() на Android, Desktop и WebAssembly
8Observer8 24.01.2026
Содержание блога
Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
|
моя боль
iceja 24.01.2026
Выложила интерполяцию кубическими сплайнами www. iceja. net
REST сервисы временно не работают, только через Web.
Написала за 56 рабочих часов этот сайт с нуля. При помощи perplexity. ai PRO , при. . .
|
Модель сукцессии микоризы
anaschu 24.01.2026
Решили писать научную статью с неким РОманом
|