Чем сконвертировать в русский язык такие крякозябры?

Evg · Регистрация: 30.03.2009

Author24 — интернет-сервис помощи студентам

Чем сконвертировать в русский язык такие крякозябры?

OemToChar не подходит. Я мог бы разные способы перебрать, но кроме OemToChar и CharToOem ничего не знаю. Конкретно в данном случае проблема скорее всего в том, что файл изначально был в виндовой кодировке, но выдал его в utf-8 (или перекодировал), но точно не уверен

@Manjak · 06.02.2011, 17:37

Дай-ка сам файлик, поиграюсь

Evg · 06.02.2011, 17:50 **[ТС]**

Вотъ.

@Manjak · 06.02.2011, 19:40

Собсно даже блокнот распознал текст

Кинуть назад доку или в личку?

Evg · 06.02.2011, 20:30 **[ТС]**

Да мне надо не конкретно этот текст распознать, мне надо программу написать, которая его в нормальный вид перекодирует. А блокнот как распознал?

@alex_x_x · 06.02.2011, 20:48

MultiByteToWideChar конвертирует из кодировок в Unicode виндовский
это видимо utf-8?

@Manjak · 06.02.2011, 21:47

Собсно

C++

1 2	wifstream inputStream("ccc.txt", ios::in); wcout << inputStream.rdbuf() << endl;

Evg · 06.02.2011, 22:56 **[ТС]**

Нифига не понял.

C++

1 2	AnsiString a = "abc"; AnsiString b = qqq (a);

Что должно быть на месте qqq?

Добавлено через 19 минут
Вроде бы как разобрался. В моём случае надо будет сначала MultiByteToWideChar(CP_UTF8), а потом WideCharToMultiByte(1251)

Добавлено через 5 минут
Нашёл исходник. Взято отсюда. На тут случай, если ссылку сотрут, хотя бы упомяну, что автор - npak

C++

#include <windows.h>
#include <stdio.h>
 
wchar_t * utf8_to_unicode(char *utf8_string)
{
    int err;
    wchar_t * res;
    int res_len = MultiByteToWideChar(
        CP_UTF8,            // Code page
        0,                  // No flags
        utf8_string,        // Multibyte characters string
        -1,                 // The string is NULL terminated
        NULL,               // No buffer yet, allocate it later
        0                   // No buffer
        );
    if (res_len == 0) 
    {
        printf("Failed to obtain utf8 string length\n");
        return NULL;
    }
    res = calloc(sizeof(wchar_t), res_len);
    if (res == NULL) 
    {
        printf("Failed to allocate unicode string\n");
        return NULL;
    }
    err = MultiByteToWideChar(
        CP_UTF8,            // Code page
        0,                  // No flags
        utf8_string,        // Multibyte characters string
        -1,                 // The string is NULL terminated
        res,                // Output buffer
        res_len             // buffer size
        );
    if (err == 0)
    {
        printf("Failed to convert to unicode\n");
        free(res);
        return NULL;
    }
    return res;
}
 
char * unicode_to_1251(wchar_t *unicode_string)
{
    int err;
    char * res;
    int res_len = WideCharToMultiByte(
        1251,               // Code page
        0,                  // Default replacement of illegal chars
        unicode_string,     // Multibyte characters string
        -1,                 // Number of unicode chars is not known
        NULL,               // No buffer yet, allocate it later
        0,                  // No buffer
        NULL,               // Use system default
        NULL                // We are not interested whether the default char was used
        );
    if (res_len == 0) 
    {
        printf("Failed to obtain required cp1251 string length\n");
        return NULL;
    }
    res = calloc(sizeof(char), res_len);
    if (res == NULL) 
    {
        printf("Failed to allocate cp1251 string\n");
        return NULL;
    }
    err = WideCharToMultiByte(
        1251,               // Code page
        0,                  // Default replacement of illegal chars
        unicode_string,     // Multibyte characters string
        -1,                 // Number of unicode chars is not known
        res,                // Output buffer
        res_len,            // buffer size
        NULL,               // Use system default
        NULL                // We are not interested whether the default char was used
        );
    if (err == 0)
    {
        printf("Failed to convert from unicode\n");
        free(res);
        return NULL;
    }
    return res;
}
 
int main(int argc, char ** argv)
{
    char utf8_string[] = "UTF-8 + СЂСѓСЃСЃРєРёР№ С‚РµРєСЃС‚";
    wchar_t * unicode_string;
    char * cp1251_string;
 
    unicode_string = utf8_to_unicode(utf8_string);
    if (unicode_string == NULL)
    {
        printf("Failed to convert!\n" );
        return 1;
    }
    MessageBoxW(NULL, unicode_string, L"Unicode", 0);
    cp1251_string = unicode_to_1251(unicode_string);
    free(unicode_string);
    if (cp1251_string == NULL)
    {
        printf("Failed to convert from unicode!\n");
        return 2;
    }
    MessageBoxA(NULL, cp1251_string, "CP1251", 0);
    return 0;
}

@alex_x_x · 06.02.2011, 23:09

Evg, по утверждению Manjak'а там и так хорошо выводилось, но даже если там другая кодировка достаточно перевести в wide символы и использовать функции для работы с широкими символами(utf8_to_unicode), не переводя опять в ascii'шные символы

Evg · 06.02.2011, 23:17 **[ТС]**

Сообщение от alex_x_x

Evg, по утверждению Manjak'а там и так хорошо выводилось

Мне нужно, чтобы не у Manjak'а хорошо выводилось, а у меня и у тех, кто будет моей программой пользоваться.

Сообщение от alex_x_x

но даже если там другая кодировка достаточно перевести в wide символы и использовать функции для работы с широкими символами(utf8_to_unicode), не переводя опять в ascii'шные символы

Я толком ничего не понял. Я вообще в этой белиберде традиционно ничего не понимаю. Как обезьяна тупо повторить могу, а как этим делом пользоваться, да ещё и так, чтобы у людей без плясок с бубнами работало - толком не понимаю.

У меня, грубо говоря, получается так:

C++

1 2	AnsiString src = .....; AnsiString dst = AnsiString (unicode_to_1251 (utf8_to_unicode (src.c_str())));

Можешь выразить свою мысль не словами, а примерно похожим кодом? Потому что я так и не понял, что делать и куда нажимать.

@alex_x_x · 06.02.2011, 23:28

Сообщение от Evg

MessageBoxW(NULL, unicode_string, L"Unicode", 0);

вот это пример работы с широкими символами
wprintf, wscanf, wstring итп
все это часть стандарта
AnsiString приблуда билдера, судя по гуглу широкосимвольный аналог - WideString
а с билдером не работал, но предполагаю, что должно так работать

WideString dst = WideString ((utf8_to_unicode (src.c_str()));

а правильней так

Сообщение от Manjak

wifstream inputStream("ccc.txt", ios::in);
wcout << inputStream.rdbuf() << endl;

C++

wifstream inputStream("ccc.txt", ios::in);
wstring wstr;
inputStream >> wstr;
WideString dst = WideString( wstr.c_str() );

@Manjak · 07.02.2011, 00:04

В файле лежит нормальный UTF-16, в конкретном случае достаточно стандартних С++ классов или сишных функций (на UTF-32 не проверял, любителям линухов придется поднапрячься). Ну, а для нормального разбора файла в формате юникод в нем на начале помещается битовая маска - маркировка содержимого так сказать

Добавлено через 14 минут
Тут можно почитать. По-хорошему, если есть маска - это юникод, нету - анси. Но может кто-то просто так текст поместил в файл - тогда есть статистические методы (например, функция IsTextUnicode)

Evg · 07.02.2011, 09:12 **[ТС]**

alex_x_x, мне нужен AnsiString, потому как все борландовские компоненты работают именно с ним, а не "правильные" варианты

alex_x_x, Manjak, в последних ваших постах речь идёт о файле. У меня НЕ стоит задача прочитать что-то из файла. У меня стоит задача сконвертировать буффер в памяти, который скачан из сети. В начале поста #8 я ведь именно для этого привёл пример с "qqq", но вы мне упорно отвечаете на вопрос, который я не задавал и игнорируете вопрос, который я задал. По факту полезным оказалось лишь MultiByteToWideChar, потому как появилось то, за что модно зацепиться и вопрос быстро решился через гугл. Всё, что я говорю - это НЕ попытка обо$рать, а призыв к тому, что неплохо бы понять, чего хочет спрашивающий, потому как даже в очень простых вопросах зачастую вижу, что люди пишут совсем не то, о чём спрашивают

Добавлено через 36 минут
Хотя я немного промазал разделом. Думал, что создал тему в разделе Borland, а на самом деле в "C/C++". При таком раскладе получается что надо было бы более явно описать, что требуется решение именно для Borland'а

@Manjak · 07.02.2011, 16:33

Я уже ответил полностью на вопрос. Если целью является любой кусок данных - нет никакой возможности распознать, разве что статистически разбирать данные (у латинских и русских букв младший байт будет 0, но вот это только справедливо для little-endian систем и для UTF-16). В общем, ты задачу себе поставил неправильно или просто неполное описание дал в теме.

Если целевая система - только винда, то это 100% little-endian UTF-16, т.е. читай предыдущий пост про функцию IsTextUnicode, если же целью является нечто утопическое - не забивай себе голову.

@Wanee · 07.02.2011, 16:35

C++

#include <locale>
using namespace std;
 
void main()
{
    setlocale(LC_ALL, "rus" ;
    cout << "Текст по-русски" << endl;
}

@Manjak · 07.02.2011, 16:40

Сообщение от Wanee

C++

#include <locale>
using namespace std;
 
void main()
{
    setlocale(LC_ALL, "rus" ;
    cout << "Текст по-русски" << endl;
}

Не по теме:

На нас неожиданно снизошло просветление:D

@ForEveR · 07.02.2011, 19:29

Не по теме:

Manjak, Мало того, на него снизошло еще и неверное просветление)

@Kronex · 10.02.2011, 12:06

вот здесь давно все разобрали
ну и вот здесь
хватит в пустую темы создавать при чем с таким заголовком - просто ищите. все такие мелие темы уже давно разобрали. так и искать нужное проще будет

Evg · 10.02.2011, 12:15 **[ТС]**

Сообщение от Kronex

вот здесь давно все разобрали
ну и вот здесь
хватит в пустую темы создавать при чем с таким заголовком - просто ищите. все такие мелие темы уже давно разобрали. так и искать нужное проще будет

Для начала прочти выданные тобой ссылки и вникни в то, что там написано. А потом вникни в первый пост данной темы. Если всё равно не понятно, то для самых умных специально написал "OemToChar не подходит".

@Kronex · 10.02.2011, 13:25

а там не только эта инструкция предлагается

@Kronex 0 / 0 / 1 Регистрация: 09.06.2010 Сообщений: 9
	10.02.2011, 12:06	18
	вот здесь давно все разобрали ну и вот здесь хватит в пустую темы создавать при чем с таким заголовком - просто ищите. все такие мелие темы уже давно разобрали. так и искать нужное проще будет 0

Evg 21279 / 8301 / 637 Регистрация: 30.03.2009 Сообщений: 22,659 Записей в блоге: 30
		1
	Чем сконвертировать в русский язык такие крякозябры? 06.02.2011, 16:54. Показов 8393. Ответов 23 Метки нет (Все метки) Чем сконвертировать в русский язык такие крякозябры? OemToChar не подходит. Я мог бы разные способы перебрать, но кроме OemToChar и CharToOem ничего не знаю. Конкретно в данном случае проблема скорее всего в том, что файл изначально был в виндовой кодировке, но выдал его в utf-8 (или перекодировал), но точно не уверен Миниатюры 0

@Manjak 270 / 176 / 46 Регистрация: 12.03.2010 Сообщений: 494
	06.02.2011, 17:37	2
	Дай-ка сам файлик, поиграюсь 0

@Manjak 270 / 176 / 46 Регистрация: 12.03.2010 Сообщений: 494
	06.02.2011, 19:40	4
	Собсно даже блокнот распознал текст Кинуть назад доку или в личку? 0

Evg 21279 / 8301 / 637 Регистрация: 30.03.2009 Сообщений: 22,659 Записей в блоге: 30
	06.02.2011, 20:30 [ТС]	5
	Да мне надо не конкретно этот текст распознать, мне надо программу написать, которая его в нормальный вид перекодирует. А блокнот как распознал? 0

@alex_x_x бжни 2473 / 1684 / 135 Регистрация: 14.05.2009 Сообщений: 7,162
	06.02.2011, 20:48	6
	MultiByteToWideChar конвертирует из кодировок в Unicode виндовский это видимо utf-8? 1

@alex_x_x бжни 2473 / 1684 / 135 Регистрация: 14.05.2009 Сообщений: 7,162
	06.02.2011, 23:09	9
	Evg, по утверждению Manjak'а там и так хорошо выводилось, но даже если там другая кодировка достаточно перевести в wide символы и использовать функции для работы с широкими символами(utf8_to_unicode), не переводя опять в ascii'шные символы 0

@Manjak 270 / 176 / 46 Регистрация: 12.03.2010 Сообщений: 494
	07.02.2011, 00:04	12
	В файле лежит нормальный UTF-16, в конкретном случае достаточно стандартних С++ классов или сишных функций (на UTF-32 не проверял, любителям линухов придется поднапрячься). Ну, а для нормального разбора файла в формате юникод в нем на начале помещается битовая маска - маркировка содержимого так сказать Добавлено через 14 минут Тут можно почитать. По-хорошему, если есть маска - это юникод, нету - анси. Но может кто-то просто так текст поместил в файл - тогда есть статистические методы (например, функция IsTextUnicode) 0

Evg 21279 / 8301 / 637 Регистрация: 30.03.2009 Сообщений: 22,659 Записей в блоге: 30
	07.02.2011, 09:12 [ТС]	13
	alex_x_x, мне нужен AnsiString, потому как все борландовские компоненты работают именно с ним, а не "правильные" варианты alex_x_x, Manjak, в последних ваших постах речь идёт о файле. У меня НЕ стоит задача прочитать что-то из файла. У меня стоит задача сконвертировать буффер в памяти, который скачан из сети. В начале поста #8 я ведь именно для этого привёл пример с "qqq", но вы мне упорно отвечаете на вопрос, который я не задавал и игнорируете вопрос, который я задал. По факту полезным оказалось лишь MultiByteToWideChar, потому как появилось то, за что модно зацепиться и вопрос быстро решился через гугл. Всё, что я говорю - это НЕ попытка обо$рать, а призыв к тому, что неплохо бы понять, чего хочет спрашивающий, потому как даже в очень простых вопросах зачастую вижу, что люди пишут совсем не то, о чём спрашивают Добавлено через 36 минут Хотя я немного промазал разделом. Думал, что создал тему в разделе Borland, а на самом деле в "C/C++". При таком раскладе получается что надо было бы более явно описать, что требуется решение именно для Borland'а 0

@Manjak 270 / 176 / 46 Регистрация: 12.03.2010 Сообщений: 494
	07.02.2011, 16:33	14
	Я уже ответил полностью на вопрос. Если целью является любой кусок данных - нет никакой возможности распознать, разве что статистически разбирать данные (у латинских и русских букв младший байт будет 0, но вот это только справедливо для little-endian систем и для UTF-16). В общем, ты задачу себе поставил неправильно или просто неполное описание дал в теме. Если целевая система - только винда, то это 100% little-endian UTF-16, т.е. читай предыдущий пост про функцию IsTextUnicode, если же целью является нечто утопическое - не забивай себе голову. 0

@ForEveR
	07.02.2011, 19:29 #17
	Не по теме: Manjak, Мало того, на него снизошло еще и неверное просветление) 0

Evg 21279 / 8301 / 637 Регистрация: 30.03.2009 Сообщений: 22,659 Записей в блоге: 30
	10.02.2011, 12:15 [ТС]	19
	Сообщение от Kronex вот здесь давно все разобрали ну и вот здесь хватит в пустую темы создавать при чем с таким заголовком - просто ищите. все такие мелие темы уже давно разобрали. так и искать нужное проще будет Для начала прочти выданные тобой ссылки и вникни в то, что там написано. А потом вникни в первый пост данной темы. Если всё равно не понятно, то для самых умных специально написал "OemToChar не подходит". 1

@Kronex 0 / 0 / 1 Регистрация: 09.06.2010 Сообщений: 9
	10.02.2011, 13:25	20
	а там не только эта инструкция предлагается 0