|
16 / 16 / 9
Регистрация: 08.09.2014
Сообщений: 66
|
|||||||||||
Как определить кодировку веб-страницы?21.01.2015, 00:38. Показов 7537. Ответов 6
Метки ude.csharp (Все метки)
Написал парсер страниц. но некоторые страницы с русским текстом отображаются не правильно в textBox
конвертировать пробую так
не получается. Что не так. ? например страница http://www. liveinternet. ru/member.php?action=lostpw немогу получить коректно <title> знаки вопроса ресует
0
|
|||||||||||
| 21.01.2015, 00:38 | |
|
Ответы с готовыми решениями:
6
Как определить кодировку загруженной страницы? Как определить кодировку страницы через HttpURLConnection? Как определить кодировку html-страницы при скачивании? |
|
Master of Orion
|
||||||
| 21.01.2015, 02:28 | ||||||
|
rustammv, страница возвращает charset, в котором она закодированна
0
|
||||||
|
16 / 16 / 9
Регистрация: 08.09.2014
Сообщений: 66
|
||||||
| 21.01.2015, 13:08 [ТС] | ||||||
|
Psilon,
получаю кодировку так
но например вот результат сначала идёт title потом адрес Ìàðêåò | LiveInternet (http://www.liveinternet.ru/market) ÐÑе Ñамое инÑеÑеÑное из миÑа IT-индÑÑÑÑии / 3DNews - Daily Digital Digest (http://www.3dnews.ru) бывает что на странице указано windows-1251 а по факту title в другой как это можно отловить (или часть) ещё вот Главная страница • Торренты надо?! (http://www.torrnado.ru) вот эти коды • и т.п. только по словарю http://www.utexas.edu/learn/html/spchar.html менять или есть какието средства родные у C#
1
|
||||||
|
Master of Orion
|
|||||||||||
| 21.01.2015, 14:19 | |||||||||||
0
|
|||||||||||
|
Администратор
|
|||||||
| 22.01.2015, 04:27 | |||||||
|
rustammv, для правильного отображения текста необходимо знать его кодировку. Веб-сервер может указать кодировку в заголовке Content-Type (предпочтительный способ) или в теле документа с помощью мета-тега. Сайты 3dnews.ru и liveinternet.ru указывают кодировку только в мета-теге. Стандартные классы (WebClient, HttpClient, HttpWebRequest) не поддерживают подобный сценарий. Придется писать самому. Алгоритм примерно такой:
1) Качаем страницу как массив байтов 2.1) Если есть заголовок Content-Type с именем кодировки, то используем её. 2.2) Если нет заголовка, но на странице есть мета-тег с именем кодировки, то используем её. 2.3) Если нет ни того ни другого, то пытаемся угадать. Например, с помощью Mozilla Universal Charset Detector 3) Преобразовываем массив байтов в строку используя найденную кодировку Пример реализации
Код работает для сайтов которые ты привел в примерах, но на других я его не проверял.
4
|
|||||||
|
Администратор
|
|
| 22.01.2015, 13:13 | |
|
Psilon, пожалуйста
Браузеры давно занимаются угадыванием кодировок на самом деле. У Microsoft тоже есть собственная реализация детектора.
0
|
|
| 22.01.2015, 13:13 | |
|
Помогаю со студенческими работами здесь
7
Как определить сколько было загруженно информации(байт) из интернета, при загрузке веб страницы? Как узнать кодировку страницы и нужна ли она вообще? Как задать кодировку программно создаваемой html-страницы Определить окончание загрузки веб-страницы Почему при создании веб-страницы в FrontPage автоматически создается папка с изображениями, а при создании веб-страницы в DreamWeaver - нет? Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2.
Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
|
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях.
Задача: при копировании документа очищать определенные реквизиты и табличную. . .
|
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git
main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели
8ATzM_2aurI
|
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2.
Задача: запретить редактирование документа, если он открыт у другого пользователя.
/ / . . .
|
|
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои.
А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
|
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20%
kYBz3eJf3jQ
|
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
|
Горе от ума
kumehtar 07.04.2026
Эта мне ментальная установка, что вот прямо сейчас, мол, мне для полного счастья не хватает (нужное вписать), и когда я этого достигну - тогда и полный кайф. Одна из самых сильных ловушек на пути. . . .
|