Форум программистов, компьютерный форум CyberForum.ru

Преобразовать кодировку utf-8 в cp1251 и обратно - C++

Восстановить пароль Регистрация
 
Рейтинг: Рейтинг темы: голосов - 17, средняя оценка - 4.82
ninja2
 Аватар для ninja2
230 / 186 / 7
Регистрация: 26.09.2012
Сообщений: 2,018
Завершенные тесты: 1
03.10.2013, 10:41     Преобразовать кодировку utf-8 в cp1251 и обратно #1
Здорова господа!!!

Пишу парсер веб страниц с русским текстом, но тут проблемка страницы записаны в двух кодировках utf8 и cp1251, получается неудобно, если у меня будет сайт в cp1251, и я допустим скопировал туда статью в кодировке utf8, то она не правильно отобразится - крякозябры появятся, раньше я когда писал парсер на пхп, то просто обходил те страницы которые в utf8, парсил токо те которые в cp1251, но щас хочу сделать универсальный парсер, там в принципе нужно только русские символы перевести в cp1251.

Мб есть готовые решения? Мне нужна функция которая б принимала строку в utf8 а на выходе давала строку в cp1251.
И функция нужна еще просто для определения в кокой кодировке текст????

Добавлено через 10 минут
Ладно функцию я нашол, нужна функция которая будет определять в какой кодировке текст, просто есть текст, но неизвестно в какой он кодировке, как определить кодировку???

Добавлено через 3 минуты
Есть строка текста, как определить в какой она кодировке?

Добавлено через 8 минут
Ладно буду парсить строку которая показывает браузеру в какой кодировке текст <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">, Если будет в utf8, то преобразую в сп1251, если в cп1251, то ничего не делать, а если в какой нить другой - то это мало вероятно.
После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
ForEveR
Модератор
Эксперт C++
 Аватар для ForEveR
7927 / 4709 / 318
Регистрация: 24.06.2010
Сообщений: 10,524
Завершенные тесты: 3
03.10.2013, 11:10     Преобразовать кодировку utf-8 в cp1251 и обратно #2
ninja2, И зачем это делать руками? N либ же есть. К примеру iconv
ninja2
 Аватар для ninja2
230 / 186 / 7
Регистрация: 26.09.2012
Сообщений: 2,018
Завершенные тесты: 1
03.10.2013, 11:28  [ТС]     Преобразовать кодировку utf-8 в cp1251 и обратно #3
Цитата Сообщение от ForEveR Посмотреть сообщение
И зачем это делать руками? N либ же есть. К примеру iconv
да в этой iconv ничего не поймешь.

Добавлено через 1 минуту
У меня iconv нету ее еще подключать нада скачивать.
ForEveR
Модератор
Эксперт C++
 Аватар для ForEveR
7927 / 4709 / 318
Регистрация: 24.06.2010
Сообщений: 10,524
Завершенные тесты: 3
03.10.2013, 11:36     Преобразовать кодировку utf-8 в cp1251 и обратно #4
ninja2, Вах, какая проблема. Ведь лучше написать говнокод перевода из кодировки в кодировку самому и плевать что есть библиотеки которые сделаны специально для этого. Верной дорогой идете, товарищ Гуру.
gray_fox
What a waste!
 Аватар для gray_fox
1244 / 1127 / 53
Регистрация: 21.04.2012
Сообщений: 2,350
Завершенные тесты: 3
03.10.2013, 11:38     Преобразовать кодировку utf-8 в cp1251 и обратно #5
Цитата Сообщение от ninja2 Посмотреть сообщение
У меня iconv нету ее еще подключать нада скачивать.
Поверь, это проще, чем делать всё самому.
ninja2
 Аватар для ninja2
230 / 186 / 7
Регистрация: 26.09.2012
Сообщений: 2,018
Завершенные тесты: 1
04.10.2013, 09:40  [ТС]     Преобразовать кодировку utf-8 в cp1251 и обратно #6
Я сам не делал я готовую функцию нашол готовую построеную на винапи или хз я в нее не вникал:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
string Utf8_to_cp1251(const char *str)
{
    string res;
    int result_u, result_c;
 
    result_u = MultiByteToWideChar(CP_UTF8,
        0,
        str,
        -1,
        0,
        0);
 
    if (!result_u)
        return 0;
 
    wchar_t *ures = new wchar_t[result_u];
 
    if(!MultiByteToWideChar(CP_UTF8,
        0,
        str,
        -1,
        ures,
        result_u))
    {
        delete[] ures;
        return 0;
    }
 
    result_c = WideCharToMultiByte(
        1251,
        0,
        ures,
        -1,
        0,
        0,
        0, 0);
 
    if(!result_c)
    {
        delete [] ures;
        return 0;
    }
 
    char *cres = new char[result_c];
 
    if(!WideCharToMultiByte(
        1251,
        0,
        ures,
        -1,
        cres,
        result_c,
        0, 0))
    {
        delete[] cres;
        return 0;
    }
    delete[] ures;
    res.append(cres);
    delete[] cres;
    return res;
}
мне нужно было щас определять в какой кодировке сервер присылает текст, но и тут разрешилось, сервер присылает в загаловке в какой кодировке отображать текст например charset=UTF-8 или там может сп1251, а мб и в левой какой нить, те просто пропустим. Все сайты как правило стараются на utf-8 сделать но в рунете очень много, наверно процентов 90% всех сайтов сделано в сп1251. Просто выдирать эту строчку и смотреть в какой кодировке.

Добавлено через 1 минуту
Мне щас главное просто работающий прототип сделать, потом уже если что модернизирую с iconv.

Добавлено через 21 час 8 минут
Все таки подумал и решил iconv установить, но чо то не найду где ее скачать, и примеров использования нету.

Добавлено через 3 минуты
Вообще что бы не долго думать я вычитал что можно мою функцию доработать для остальных кодировок, там вроде говорится что переводим сначала в utf-16, потом в любую другую кодировку, так от ее можно доработать и переводить в любую кодировку.

Добавлено через 19 минут
От функция:
C++
1
2
3
4
5
6
7
8
result_c = WideCharToMultiByte(
        CP_KOI8,
        0,
        ures,
        -1,
        0,
        0,
        0, 0);
мне нужно в koi8-r перевести, с какой туда параметр передать? Я уже пробовал: koi8-r, koi8, KOI8 CP_KOI8 нифига не работает.

Добавлено через 15 минут
Ладно разобрался, там ничего изменять не нада оставить как и было 1251, а коi8r это 20866 кодировка.
Yandex
Объявления
04.10.2013, 09:40     Преобразовать кодировку utf-8 в cp1251 и обратно
Ответ Создать тему
Опции темы

Текущее время: 22:57. Часовой пояс GMT +3.
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2016, vBulletin Solutions, Inc.
Рейтинг@Mail.ru