Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/18: Рейтинг темы: голосов - 18, средняя оценка - 4.67
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173

Как сохранить html-страницу в кодировке ANSI (сохраняет только в UTF-8)?

20.03.2018, 22:08. Показов 3998. Ответов 6

Студворк — интернет-сервис помощи студентам
Добрый день!

Нужно сохранить страницу в файл в кодировке ANSI.

Если открыть страницу в webbrowser, то сохраняется в ANSI:
C#
1
2
3
4
5
6
7
8
9
            using (WebBrowser wb = new WebBrowser())
            {
                wb.Navigate("http://pravo-search.minjust.ru/bigs/showDocumentWithTemplate.action?id=7211E7D2-DD9C-43BB-A4AB-6C917C4C20FA&templateName=printText.flt");
                while (wb.ReadyState != WebBrowserReadyState.Complete)
                    Application.DoEvents();
 
                System.IO.File.WriteAllText("1.html", wb.Document.Body.InnerHtml, Encoding.Default);
                //страница сохраняется в кодировке ANSI
            }
Но если сохранять через WebClient, тогда сохраняется в кодировке UTF-8
C#
1
2
3
4
5
6
7
            using (WebClient client = new WebClient())
            {
                client.Encoding = System.Text.Encoding.Default;
                string htmlCode = client.DownloadString("http://pravo-search.minjust.ru/bigs/showDocumentWithTemplate.action?id=7211E7D2-DD9C-43BB-A4AB-6C917C4C20FA&templateName=printText.flt");
                System.IO.File.WriteAllText("2.html", htmlCode, Encoding.Default);
                //страница сохраняется в кодировке UTF-8
            }
Каким образом можно сохранить страницу в файл в кодировке ANSI без использования WebBrowser (через Webclient или GetWebRequest)?
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
20.03.2018, 22:08
Ответы с готовыми решениями:

Как сохранить html страницу в Windows-1251 кодировке?
скачиваю html страницу. var sait = new WebClient().DownloadString(zapros); произвожу удаление, добавление, смену нужных кусков...

UTF-8 файл конвертирует и сохраняет как ANSI
Доброго времени суток. Подскажите ктонибудь пожалуйста что не так делаю? Файл формируется на 1c если брать его просто так то он в utf-8....

Как сохранить объект Blob в кодировке ANSI?
Добрый день, суть проблемы в следующем: есть PHP -скрипт, генерирующий PDF-документ при помощи библиотеки FPDF по POST-запросу через AJAX....

6
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18295 / 14219 / 5368
Регистрация: 17.03.2014
Сообщений: 28,896
Записей в блоге: 1
20.03.2018, 22:57
Цитата Сообщение от Suppir Посмотреть сообщение
Каким образом можно сохранить страницу в файл в кодировке ANSI без использования WebBrowser (через Webclient или GetWebRequest)?
В данном случае прблема возникает потому что в коде указана неверная кодировка у WebCient. Нужно заменить строку №3 на
C#
3
client.Encoding = System.Text.Encoding.UTF8;
Если нужна универсальность в определении правильной кодировки страницы, то смотри пример здесь.
1
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173
20.03.2018, 23:00  [ТС]
Цитата Сообщение от OwenGlendower Посмотреть сообщение
В данном случае прблема возникает потому что в коде указана неверная кодировка у WebCient. Нужно заменить строку №3 на
Спасибо. Да, так скачивается в ANSI.

Только браузер первый вариант (скачанный через webbrowser) открывает нормально. А второй вариант открывает козябрами.
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18295 / 14219 / 5368
Регистрация: 17.03.2014
Сообщений: 28,896
Записей в блоге: 1
20.03.2018, 23:07
Лучший ответ Сообщение было отмечено Suppir как решение

Решение

Suppir, логично. В решении с WebBrowser ты сохраняешь не весь html, а только то что находится в body. В решении с WebClient сохраняется весь текст страницы. Включая мета-тег с кодировкой
HTML5
1
<meta charset="UTF-8">
Соответственно получается html файл с текстом в кодировке ANSI, но утверждающий что он использует UTF8. Нужно исправить кодировку в мета-теге на правильную или сохранять страницу как-есть. Зачем тебе именно ANSI кодировка?
1
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173
20.03.2018, 23:15  [ТС]
Цитата Сообщение от OwenGlendower Посмотреть сообщение
оответственно получается html файл с текстом в кодировке ANSI, но утверждающий что он использует UTF8. Нужно исправить кодировку в мета-теге на правильную или сохранять страницу как-есть.
Да, я понял. Исправлю UTF-8 на windows-1251.

Цитата Сообщение от OwenGlendower Посмотреть сообщение
Зачем тебе именно ANSI кодировка?
Тогда страница в два раза меньше весит на диске.

Вообще, мне нужно две задачи выполнить:

1) получить Title (название) из web-страницы. Если строка в кодировке UTF-8, то title вместо кириллицы получается козябры.

2) кроме html сохранить файл в формат rtf.
Перегнать в rtf пока не очень получается. Если открыть в браузере и скопировать в richtextbox, а потом сохранить, то нарушаются таблицы в документах.
Более-менее нормальный результат, если открыть фоном скрытый MS Word и туда скопировать, потом сохранить.
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18295 / 14219 / 5368
Регистрация: 17.03.2014
Сообщений: 28,896
Записей в блоге: 1
20.03.2018, 23:24
Цитата Сообщение от Suppir Посмотреть сообщение
1) получить Title (название) из html. Если строка в кодировке UTF-8, то title вместо кириллицы получается козябрами. Если в кодировке ANSI, то нормально.
Неправильно читаешь из файла значит.

Цитата Сообщение от Suppir Посмотреть сообщение
Тогда страница в два раза меньше весит на диске
Недавно понадобилось спарсить данные с одного сайта. Общий объем скачанного html получался ~200 Мб. Для экономии места на диске файлы при скачивании ложились сразу в zip архив, который в итоге получился ~20 Мб. Это же текст который очень хорошо жмется.

Цитата Сообщение от Suppir Посмотреть сообщение
перегнать в rtf пока не очень получается.
Про RTF не скажу. Я бы поискал конвертер html -> rtf.
0
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173
20.03.2018, 23:36  [ТС]
Цитата Сообщение от OwenGlendower Посмотреть сообщение
Неправильно читаешь из файла значит.
Все, разобрался.

Если, как ты написал, для client сразу указать:
C#
1
client.Encoding = System.Text.Encoding.UTF8;
тогда Title нормально распознается.

Цитата Сообщение от OwenGlendower Посмотреть сообщение
Про RTF не скажу. Я бы поискал конвертер html -> rtf.
Пока нашел только платный.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
20.03.2018, 23:36
Помогаю со студенческими работами здесь

Как сохранить текст из memo в кодировке UTF-8?
Приветствую! Нужна Ваша помощь. Мне надо сохранить текст из memo1 в кодировке UTF-8. Процедура сохранения вот(работает, но кодировка...

Отправка письма в HTML в кодировке UTF-8
Уважаемые форумчане! Как мне отправить письмо в HTML в кодировке UTF-8 используя Indy и C++ Builder XE3? А конкретнее хочу отправлять...

Обработка .txt кодировка ANSI и UTF-8 (буква "я" в ANSI воспринимается как EOF)
Есть следующий кусок кода: FILE* fp = fopen(&quot;G:\OPND1.txt&quot;, &quot;r&quot;); if (fp!=NULL) // если файл удалось открыть { while((ch =...

Текстовый файл UTF-8 сохранить как текстовый файл ANSI
Есть текстовый файл в UTF-8 Нужно рядом сохранить его же, но в ANSI Как сделать это средствами c++? Среда Visual Studio 2010 ...

Как сохранить страницу html из webbrowser
Получение текущего HTML кода страницы из WebBrowser помогите сохранить html код в текстовый документ ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten
8Observer8 27.02.2026
Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru