Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.56/9: Рейтинг темы: голосов - 9, средняя оценка - 4.56
5 / 5 / 5
Регистрация: 28.11.2014
Сообщений: 40

Слетела кодировка при парсинге html-страницы

14.01.2016, 18:56. Показов 2004. Ответов 2

Студворк — интернет-сервис помощи студентам
Здравствуйте!
Начал писать программу которая парсит сайт. В заголовке html-страницы указана следующая кодировка:
HTML5
1
<meta http-equiv="Content-Type" content="text/html; charset=windows-1251">
Метод, возвращающий html-текст:
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
 private String GetPage(String url, String referer, String cookies)
        {
            HttpWebRequest myHttpWebRequest = (HttpWebRequest)HttpWebRequest.Create(url);
            myHttpWebRequest.Referer = referer;
            myHttpWebRequest.UserAgent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36 OPR/34.0.2036.47 (Edition Yx)";
            myHttpWebRequest.Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8";
            myHttpWebRequest.Headers.Add("Accept-Language", "ru-RU,ru;q=0.8,en-US;q=0.6,en;q=0.4");
            myHttpWebRequest.Headers.Add("Accept-Encoding", "gzip, deflate, lzma, sdch");
            myHttpWebRequest.Headers.Add("Upgrade-Insecure-Requests", "1");
            myHttpWebRequest.ContentType = "text/html";
            myHttpWebRequest.Headers.Add(HttpRequestHeader.Cookie, cookies);
            HttpWebResponse myHttpWebResponse = (HttpWebResponse)myHttpWebRequest.GetResponse();
            StreamReader myStreamReader = new StreamReader(myHttpWebResponse.GetResponseStream(), Encoding.GetEncoding(1251));
            return myStreamReader.ReadToEnd();
        }
Некоторое время метод отрабатывал нормально, возвращал html-страницу в нормальной кодировке. Смешное то, что через пару часов стал возвращать, как говорится в народе - "краказябры".

В строке
C#
1
StreamReader myStreamReader = new StreamReader(myHttpWebResponse.GetResponseStream(), Encoding.GetEncoding(1251));
Только какие кодировки не ставил, всё равно "краказябры".
Прошу помочь.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
14.01.2016, 18:56
Ответы с готовыми решениями:

Избавление от &_shy_; при парсинге страницы
Доброго времени суток. Пытаюсь спарсить страницу вот таким вот кодом WebClient wClient = new WebClient(); wClient.Encoding =...

разбинение на страницы при печати HTML Документа
Вопрос конечно не то что бы из области ASP просто проект на нем :) Вообщем есть некий многостраничный репорт. Надо чтобы Header и...

Кодировка при парсинге html файла
Доброго времени суток. Подскажите как исправить ошибку, суть такая делаю парсинг страницы, по ссылкам их текстового файла, результат...

2
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18288 / 14211 / 5368
Регистрация: 17.03.2014
Сообщений: 28,889
Записей в блоге: 1
14.01.2016, 22:46
Ogienko, попробуй данный подход. Там используется WebClient, но его несложно переделать под HttpWebRequest
1
5 / 5 / 5
Регистрация: 28.11.2014
Сообщений: 40
15.01.2016, 10:41  [ТС]
Спасибо большое.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
15.01.2016, 10:41
Помогаю со студенческими работами здесь

Кракозябры при парсинге страницы
Получаю код страницы. С помощью регулярок извлекаю значение тэга заголовка страницы(&lt;title&gt;). Но в treeView выдаёт пустые строки....

Неверное регулярное выражение при парсинге страницы
Имеется страница такой разметки: &lt;tr class=&quot;lutr&quot;&gt; 15 26 37 48 &lt;/tr&gt; &lt;tr class=&quot;lutr&quot;&gt; 1 ...

При парсинге html в string появились коды
Я спарсив сайт, я достал из тега текст. При его выводе некоторые символы отображаются в виде кодов(' = ). Как избавится от этих кодов из...

Запуск скрипта при парсинге страницы
Есть некоторый сайт с таблицей, которую необходимо пропарсить и записать данные в бд. Таблица состоит из записей и страниц, первая...

При получение кода страницы сайта через WebBrowser страдает кодировка
Здравствуйте. Есть сайт с кодировкой koi8-r. При получение кода страницы сайта textBox1.Text =...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru