Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.55/11: Рейтинг темы: голосов - 11, средняя оценка - 4.55
1 / 1 / 0
Регистрация: 11.12.2017
Сообщений: 28
.NET 4.x

Смена кодировки

12.07.2018, 19:54. Показов 2260. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет!
Заранее спасибо! У меня на мой взгляд простейший вопрос, на который я не смог найти ответ в интернете.
У меня есть переменная, строка. У нее дефолтная кодировка (ansi), а мне нужно UTF-8. Можно ли как-то сменить кодировку этой строки, а то на выходе получаю каракули?
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
12.07.2018, 19:54
Ответы с готовыми решениями:

Смена кодировки
У меня выгрузка документа происходит так: File.WriteAllText(@"C:\Выгрузка\name.csv", csv.ToString(), Encoding.Unicode); Проблема в том,...

Смена кодировки
Нужно получить из Тестовое письмо это - Тестовое РїРёСЃСЊРјРѕ Как это сделать?

Смена кодировки без потери смысла
Здравствуйте. Столкнулся с банальной задачей но решение сам не нашёл. Как сменить кодировку символов в строке с Win-1251 на UTF-8 и при...

7
управление сложностью
 Аватар для Почтальон
1693 / 1306 / 259
Регистрация: 22.03.2015
Сообщений: 7,545
Записей в блоге: 5
12.07.2018, 20:03
Поиском по форуму пользовались ?
Сменить кодировку строки
0
Эксперт .NET
 Аватар для kolorotur
17823 / 12973 / 3382
Регистрация: 17.09.2011
Сообщений: 21,261
12.07.2018, 21:04
Цитата Сообщение от sddsas Посмотреть сообщение
У меня есть переменная, строка. У нее дефолтная кодировка (ansi)
У строковой переменной не может быть кодировки ANSI — только UTF16.

Цитата Сообщение от sddsas Посмотреть сообщение
Можно ли как-то сменить кодировку этой строки
Можно получить массив байт, который представляет эту строку в разных кодировках.

Цитата Сообщение от sddsas Посмотреть сообщение
а то на выходе получаю каракули?
Тут скорее всего проблема не в строке, а в том, что где-то на входе она становится каракулями.
0
1 / 1 / 0
Регистрация: 11.12.2017
Сообщений: 28
12.07.2018, 22:00  [ТС]
Пробую так.
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
using System.IO;
 
namespace ProResult
{
    public partial class Form1 : Form
    {
        public Form1()
        {
            InitializeComponent();
        }
 
        private void button1_Click(object sender, EventArgs e)
        {
            var webClient = new System.Net.WebClient();
            string HTMLTEXT = webClient.DownloadString("https://goal24.ru/football/");
            using (FileStream fstream = new FileStream(@"C:\Users\Olimpic_Elite0165\source\repos\ProResult\html.txt", FileMode.OpenOrCreate))
            {
                byte[] array = System.Text.Encoding.Default.GetBytes(HTMLTEXT);
                fstream.Write(array, 0, array.Length);
            }
 
            using (FileStream fstream = File.OpenRead(@"C:\Users\Olimpic_Elite0165\source\repos\ProResult\html.txt"))
            {
                byte[] array = new byte[fstream.Length];
                fstream.Read(array, 0, array.Length);
                string HTML = System.Text.Encoding.Default.GetString(array);
                HTML = HTML.Substring(HTML.IndexOf("td__time") + 10);
                string TIME = HTML.Substring(0, HTML.IndexOf("<"));
                HTML = HTML.Substring(HTML.IndexOf("team--home") + 12);
                string TEAM_1 = HTML.Substring(0, HTML.IndexOf("<"));
                HTML = HTML.Substring(HTML.IndexOf("td__scores"") + 11);
                string SCORE = HTML.Substring(0, HTML.IndexOf("<"));
                HTML = HTML.Substring(HTML.IndexOf("status_active" > ") + 15);
                string STATUS = HTML.Substring(0, HTML.IndexOf("<"));
                HTML = HTML.Substring(HTML.IndexOf("team--away" > ") + 12);
                string TEAM_2 = HTML.Substring(0, HTML.IndexOf("<"));
                HTML = HTML.Substring(HTML.IndexOf("matches-td__ht" > ") + 16);
                string HALF = HTML.Substring(0, HTML.IndexOf("<"));
                string[] s = { TIME, TEAM_1, SCORE, STATUS, TEAM_2, HALF };
                listView1.Items.Add(new ListViewItem(s));
            }
        }
    }
}
Содержимое файла-это html код сайта https://goal24.ru/football/

Добавлено через 3 минуты
И в listbox получаю строку с неправильной кодировкой.
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
var webClient = new System.Net.WebClient();
            string HTMLTEXT = webClient.DownloadString("https://goal24.ru/football/");
            using (FileStream fstream = new FileStream(@"C:\Users\Olimpic_Elite0165\source\repos\ProResult\html.txt", FileMode.OpenOrCreate))
            {
                byte[] array = System.Text.Encoding.Default.GetBytes(HTMLTEXT);
                fstream.Write(array, 0, array.Length);
            }
 
using (FileStream fstream = File.OpenRead(@"C:\Users\Olimpic_Elite0165\source\repos\ProResult\html.txt"))
            {
                byte[] array = new byte[fstream.Length];
                fstream.Read(array, 0, array.Length);
                string HTML = System.Text.Encoding.Default.GetString(array);
                HTML = HTML.Substring(HTML.IndexOf("team--home") + 12);
                string TEAM_1 = HTML.Substring(0, HTML.IndexOf("<"));
 
                string[] s = {TEAM_1 };
                listView1.Items.Add(new ListViewItem(s));
            }
0
Эксперт .NET
 Аватар для Rius
13046 / 7613 / 1663
Регистрация: 25.05.2015
Сообщений: 23,157
Записей в блоге: 14
13.07.2018, 07:17
Лучший ответ Сообщение было отмечено sddsas как решение

Решение

sddsas, вы скачиваете строку, предполагая, что она в UTF-16, а она в UTF-8.
C#
1
string HTMLTEXT = Encoding.UTF8.GetString(webClient.DownloadData("https://goal24.ru/football/"));
1
Эксперт JS
6496 / 3907 / 2006
Регистрация: 14.06.2018
Сообщений: 6,781
13.07.2018, 10:08
Цитата Сообщение от sddsas Посмотреть сообщение
У меня на мой взгляд простейший вопрос
Вопрос только кажется простейшим. Хотя подавляющее большинство современных сайтов в кодировке UTF-8, но в теории это необязательно.
Поэтому нужно проверять поэтапно кодировку страницы, начиная с HTTP-заголовков.
Сверять, на каких отдельных этапах сайт будет врать. Например, сайт Google врёт о своей кодировке.

Вот на основе мнений с форумов примерные действия по загрузке страницы:
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
using System;
using System.Net;
using System.Net.Mime;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading.Tasks;
 
namespace Test_WebClient
{
    class Program
    {
        static void Main(string[] args)
        {
            Wrapper();
            Console.ReadKey();
        }
 
        private static async void Wrapper()
        {
            string s = await DownloadPage_byWebClient("https://goal24.ru/football/");
            Console.WriteLine(s);
        }
 
        private static async Task<string> DownloadPage_byWebClient(string addr)
        {
            /*
            Если хотите точно определить кодировку - лучше никогда не полагайтесь только на заголовок ответа сервера.
            Очень часто кодировка в заголовке ответа и реально используемая кодировка отличаются по различным причинам. 
            А ещё указание кодировки может вообще отсутствовать в заголовке ответа.
            <meta http-equiv="content-type"> - приоритетней HTTP-заголовков, и если он указан, то лучше верить ему. 
            Хотя он тоже не всегда корректен, да и может спокойно отсутствовать.
            В идеале нужно выполнить последовательно несколько действий:
            1. Посмотреть указана ли кодировка в HTTP-заголовке Content-Type? Если указана - запоминаем.
            2. Если в начале содержимого есть BOM-байты - прекращаем поиски, 
            и в зависимости от их значений считаем кодировкой содержимого UTF-8, UTF-16, либо UTF-32
            3. Произвести парсинг HTML(временно используя в качестве кодировки ASCII), и если есть meta[http-equiv=content-type] 
            с указанной в нем кодировкой - заменяем им кодировку найденную на первом шаге
            4. Если по результатам 1-3 шагов кодировка не определена - продолжаем парсинг HTML, 
            вытаскиваем из него текстовое содержимое, и определяем его кодировку по результатам его эвристического анализа. 
            Для этого есть готовые проекты chardetsharp и NCharDet.
            Если жестко не задавать WebClient-у кодировку, то он определит её автоматически по 1 и 2 шагу. 
            Найденную кодировку он, к сожалению, никуда не записывает, а только использует её в своих внутренних методах.
             */
            /* 
           1. Загружать надо массив байтов, а не строку. 
           ( Тогда есть возможность сразу определить BOM. )
             */
 
            try
            {
                using (var client = new WebClient() { Encoding = Encoding.UTF8 })
                {
                    string result = "";
                    byte[] a = await client.DownloadDataTaskAsync(addr);
 
                    Encoding detectedBOM = DetectBOM(a);
 
                    if (detectedBOM == Encoding.Default)
                    {
                        string stringContentType = client.ResponseHeaders["Content-Type"];
                        if (stringContentType != null)
                        {
                            ContentType contentType = new ContentType(stringContentType);
 
                            if (contentType.CharSet != null && client.Encoding.WebName.ToLower() != contentType.CharSet.ToLower())
                                client.Encoding = Encoding.GetEncoding(contentType.CharSet);
                        }
 
                        result = client.Encoding.GetString(a);
 
                        // Кодировка в HTML5
                        Match match = Regex.Match(result, @"<meta\s+[^>]*?\s*charset=[""'](?<txt>.+?)[""']\s*/>");
 
                        if (!match.Success)
                        {
                            match = Regex.Match(result, @"<meta\s+[^>]*?\s*content=[""'][^>]*?charset=(?<txt>.+?);*\s*[""']");
                        }
                        if (match.Success && client.Encoding.WebName.ToLower() != match.Groups["txt"].Value.ToLower())
                        {
                            client.Encoding = Encoding.GetEncoding(match.Groups["txt"].Value);
                            result = client.Encoding.GetString(a);
                        }
                        return result;
                    }
                    else //detectedBOM
                    {
                        client.Encoding = detectedBOM;
                        result = client.Encoding.GetString(a);
                        return result;
                    }
 
                }
            }
            catch (Exception e)
            {
                throw new Exception(addr == null ? "null" : addr, e);
            }
        }
 
        /// <summary>
        /// UTF8    : EF BB BF
        /// UTF16 BE: FE FF
        /// UTF16 LE: FF FE
        /// UTF32 BE: 00 00 FE FF
        /// UTF32 LE: FF FE 00 00
        /// </summary>
        public static Encoding DetectBOM(byte[] array)
        {
            if (array == null)
                throw new ArgumentNullException(nameof(array));
 
            // Try to read 4 bytes. If the stream is shorter, less bytes will be read.
            //Byte[] array = new Byte[4];
            int length = array.Length;
            if (length >= 2)
            {
                if (array[0] == 0xFE && array[1] == 0xFF)
                {
                    return new UnicodeEncoding(true, true);
                }
 
                if (array[0] == 0xFF && array[1] == 0xFE)
                {
                    if (length >= 4 && array[2] == 0 && array[3] == 0)
                    {
                        return new UTF32Encoding(false, true);
                    }
                    else
                    {
                        return new UnicodeEncoding(false, true);
                    }
                }
 
                if (length >= 3 && array[0] == 0xEF && array[1] == 0xBB && array[2] == 0xBF)
                {
                    return Encoding.UTF8;
                }
 
                if (length >= 4 && array[0] == 0 && array[1] == 0 && array[2] == 0xFE && array[3] == 0xFF)
                {
                    return new UTF32Encoding(true, true);
                }
            }
 
            return Encoding.Default;
        }
    }
}
1
1 / 1 / 0
Регистрация: 11.12.2017
Сообщений: 28
13.07.2018, 12:50  [ТС]
Просто РЕСПЕКТ. Одной строчкой помог решить всю проблему, в то время как на других сайтах и темах предлагают писать несколько страниц
0
Эксперт .NET
 Аватар для Rius
13046 / 7613 / 1663
Регистрация: 25.05.2015
Сообщений: 23,157
Записей в блоге: 14
13.07.2018, 12:51
sddsas, потому что это под один конкретный сайт, у которого точно известно, что он а UTF-8.
Более универсальное решение в 6 посте.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
13.07.2018, 12:51
Помогаю со студенческими работами здесь

Смена кодировки без использования Encoding
Задание: Выполнить перекодирование исходного текста без использования системных или других библиотек или функций, с использованием...

Смена кодировки только у русских букв
Приветствую! Как поэлегантнее решить следующую задачу: Есть программа, считывающие данные из файлов. Программа японская,...

Смена кодировки при записи в базу MySQL
Добрый день. Подскажите как решить. Из формы записываю данные в MySQL. В базу пишутся одни знаки вопроса. Вывод - проблемы с кодировкой....

Смена кодировки utf-8 на unicode у русских букв
Здравствуйте! Прошу помощи с перекодировкой строки вида &quot;\u041f\u0440\u0438\u0435\u0442&quot; в русские букафки. Голову сломал, но в течении...

Кодировки
Доброе время суток. Я делаю RSS aggregator. Как входные данные, на него подаются url feeds, я их разбиваю на разные части(title,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru