Форум программистов, компьютерный форум CyberForum.ru
Наши страницы

С++ для начинающих

Войти
Регистрация
Восстановить пароль
 
Рейтинг: Рейтинг темы: голосов - 17, средняя оценка - 4.82
ninja2
231 / 187 / 7
Регистрация: 26.09.2012
Сообщений: 2,018
Завершенные тесты: 1
#1

Преобразовать кодировку utf-8 в cp1251 и обратно - C++

03.10.2013, 10:41. Просмотров 2552. Ответов 5
Метки нет (Все метки)

Здорова господа!!!

Пишу парсер веб страниц с русским текстом, но тут проблемка страницы записаны в двух кодировках utf8 и cp1251, получается неудобно, если у меня будет сайт в cp1251, и я допустим скопировал туда статью в кодировке utf8, то она не правильно отобразится - крякозябры появятся, раньше я когда писал парсер на пхп, то просто обходил те страницы которые в utf8, парсил токо те которые в cp1251, но щас хочу сделать универсальный парсер, там в принципе нужно только русские символы перевести в cp1251.

Мб есть готовые решения? Мне нужна функция которая б принимала строку в utf8 а на выходе давала строку в cp1251.
И функция нужна еще просто для определения в кокой кодировке текст????

Добавлено через 10 минут
Ладно функцию я нашол, нужна функция которая будет определять в какой кодировке текст, просто есть текст, но неизвестно в какой он кодировке, как определить кодировку???

Добавлено через 3 минуты
Есть строка текста, как определить в какой она кодировке?

Добавлено через 8 минут
Ладно буду парсить строку которая показывает браузеру в какой кодировке текст <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">, Если будет в utf8, то преобразую в сп1251, если в cп1251, то ничего не делать, а если в какой нить другой - то это мало вероятно.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
03.10.2013, 10:41
Здравствуйте! Я подобрал для вас темы с ответами на вопрос Преобразовать кодировку utf-8 в cp1251 и обратно (C++):

Преобразовать utf-8 в cp1251 и обратно - C++
Преобразовать надо без использования сторонних библиотек(windows.h тоже сторонняя библиотека). Читать текст надо из файла записывать тоже.

Текст в кодировке cp1251 перевести в utf8 и обратно? - C++
Здорова! Вот есть код: #include &lt;iostream&gt; using std::cout; using std::endl; using std::cerr; using std::cin; #include...

Перекодировать строку из кодировки KOI в кодировку Windows-1251 и обратно - C++
Кодировщик. Написать программу, перекодирующую строку в кодировке KOI в строку в кодировке Windows-1251 и обратно. написать...

Преобразование текстовых файлов из кодировки DOS в кодировку Windows и обратно - C++
Программа преобразования текстовых файлов из кодировки DOS в кодировку Windows и обратно.

Прилетают данные UTF-8, как правильно преобразовать в читабельный вид? - C++
Как преобразовать вот это: cout &lt;&lt; buf&lt;&lt;endl; Выдает в UTF-8 кодировке: 01%3Aasd+%D0%92%D0%B0%D1%81%D0%B8%D0%BB%D0%B8%D0%B9 ...

Как преобразовать время в строку и обратно - C++
Помогите с алгоритмом: SYSTEMTIME(или FileTime) в строку с учетом региональных установок, а потом на основе данной строки обратно получить...

5
ForEveR
В астрале
Эксперт С++
7979 / 4738 / 321
Регистрация: 24.06.2010
Сообщений: 10,543
Завершенные тесты: 3
03.10.2013, 11:10 #2
ninja2, И зачем это делать руками? N либ же есть. К примеру iconv
1
ninja2
231 / 187 / 7
Регистрация: 26.09.2012
Сообщений: 2,018
Завершенные тесты: 1
03.10.2013, 11:28  [ТС] #3
Цитата Сообщение от ForEveR Посмотреть сообщение
И зачем это делать руками? N либ же есть. К примеру iconv
да в этой iconv ничего не поймешь.

Добавлено через 1 минуту
У меня iconv нету ее еще подключать нада скачивать.
0
ForEveR
В астрале
Эксперт С++
7979 / 4738 / 321
Регистрация: 24.06.2010
Сообщений: 10,543
Завершенные тесты: 3
03.10.2013, 11:36 #4
ninja2, Вах, какая проблема. Ведь лучше написать говнокод перевода из кодировки в кодировку самому и плевать что есть библиотеки которые сделаны специально для этого. Верной дорогой идете, товарищ Гуру.
2
gray_fox
What a waste!
1521 / 1226 / 70
Регистрация: 21.04.2012
Сообщений: 2,565
Завершенные тесты: 3
03.10.2013, 11:38 #5
Цитата Сообщение от ninja2 Посмотреть сообщение
У меня iconv нету ее еще подключать нада скачивать.
Поверь, это проще, чем делать всё самому.
1
ninja2
231 / 187 / 7
Регистрация: 26.09.2012
Сообщений: 2,018
Завершенные тесты: 1
04.10.2013, 09:40  [ТС] #6
Я сам не делал я готовую функцию нашол готовую построеную на винапи или хз я в нее не вникал:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
string Utf8_to_cp1251(const char *str)
{
    string res;
    int result_u, result_c;
 
    result_u = MultiByteToWideChar(CP_UTF8,
        0,
        str,
        -1,
        0,
        0);
 
    if (!result_u)
        return 0;
 
    wchar_t *ures = new wchar_t[result_u];
 
    if(!MultiByteToWideChar(CP_UTF8,
        0,
        str,
        -1,
        ures,
        result_u))
    {
        delete[] ures;
        return 0;
    }
 
    result_c = WideCharToMultiByte(
        1251,
        0,
        ures,
        -1,
        0,
        0,
        0, 0);
 
    if(!result_c)
    {
        delete [] ures;
        return 0;
    }
 
    char *cres = new char[result_c];
 
    if(!WideCharToMultiByte(
        1251,
        0,
        ures,
        -1,
        cres,
        result_c,
        0, 0))
    {
        delete[] cres;
        return 0;
    }
    delete[] ures;
    res.append(cres);
    delete[] cres;
    return res;
}
мне нужно было щас определять в какой кодировке сервер присылает текст, но и тут разрешилось, сервер присылает в загаловке в какой кодировке отображать текст например charset=UTF-8 или там может сп1251, а мб и в левой какой нить, те просто пропустим. Все сайты как правило стараются на utf-8 сделать но в рунете очень много, наверно процентов 90% всех сайтов сделано в сп1251. Просто выдирать эту строчку и смотреть в какой кодировке.

Добавлено через 1 минуту
Мне щас главное просто работающий прототип сделать, потом уже если что модернизирую с iconv.

Добавлено через 21 час 8 минут
Все таки подумал и решил iconv установить, но чо то не найду где ее скачать, и примеров использования нету.

Добавлено через 3 минуты
Вообще что бы не долго думать я вычитал что можно мою функцию доработать для остальных кодировок, там вроде говорится что переводим сначала в utf-16, потом в любую другую кодировку, так от ее можно доработать и переводить в любую кодировку.

Добавлено через 19 минут
От функция:
C++
1
2
3
4
5
6
7
8
result_c = WideCharToMultiByte(
        CP_KOI8,
        0,
        ures,
        -1,
        0,
        0,
        0, 0);
мне нужно в koi8-r перевести, с какой туда параметр передать? Я уже пробовал: koi8-r, koi8, KOI8 CP_KOI8 нифига не работает.

Добавлено через 15 минут
Ладно разобрался, там ничего изменять не нада оставить как и было 1251, а коi8r это 20866 кодировка.
1
04.10.2013, 09:40
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
04.10.2013, 09:40
Привет! Вот еще темы с ответами:

Как преобразовать string в double и обратно? - C++
нашел функцию atof но не хочет запускаться. сам начеркал функцию для перевода в double но обратно чет даже идей нет.

Конвертация из ASCII в UTF-32 или UTF-8 в UTF-32 - C++
Собсно сабж.

Подскажите, как преобразовать строку с IP адресом в число и обратно - C++
Есть IP адрес в std::string &quot;192.168.1.1&quot;, нужно преобразовать его в число, а IP адрес числом преобразовать обратно, не используя сторонних...

Преобразовать строку String в массив #define byte_t unsigned char и обратно - C++
Собственно танцы с бубном долгое время. Подскажите пожалуйста, как правильно и оптимально это делать. Каждый символ строки при...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2017, vBulletin Solutions, Inc.
Рейтинг@Mail.ru