В экстазе
 Аватар для wolfalone
168 / 152 / 38
Регистрация: 05.08.2012
Сообщений: 767
Записей в блоге: 3

Как определить кодировку html-страницы при скачивании?

21.08.2013, 17:55. Показов 3317. Ответов 2

Студворк — интернет-сервис помощи студентам
Доброго времени суток уважаемые!

Почитал аналогичные темы - не помогло.

Задача следующая:
1. Скачать страницу N
2. Проверить наличие в ней ссылки на страницу X

Основная проблема заключается в том, что вместо русских букв, в результате получаются unicode-символы (не декодированные). Подскажите пожалуйста, как решить данную проблему?

P.S. Основная загадка для меня остается в том, что результат выполнения последней строки - вполне себе читается в консоли, что Windows, что Linux...

Pyhon 3, code:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
# -*- coding: utf-8 -*-
import urllib
import urllib.request
 
url = "http://www.yandex.ru/"
source = urllib.request.urlopen(url).read()
 
f = open('file.html', 'w')
f.write(str(source))
f.close()
 
print (source)
print ('Привет мир!')
Добавлено через 1 минуту
P.S. Скачивать сам файл - нет необходимости, мне нужен только текст страницы в "читабельном" виде. Сохранение в файл - просто для примера.

Добавлено через 3 минуты
Скрин:
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
21.08.2013, 17:55
Ответы с готовыми решениями:

Как задать кодировку программно создаваемой html-страницы
в общем когда вывожу на печать через html выводит кракозябру, если я пиши не на английском private void saveFileDialog1_FileOk(object...

Как определить кодировку загруженной страницы?
При получении страници не верная кодировка. НИчего сделать не могу. Вот пример r =...

Как определить кодировку веб-страницы?
Написал парсер страниц. но некоторые страницы с русским текстом отображаются не правильно в textBox WebRequest request =...

2
561 / 484 / 168
Регистрация: 14.02.2012
Сообщений: 1,561
21.08.2013, 18:30
Есть несколько вариантов решения. Имхо, самый простой:
Python
1
2
3
4
5
from urllib.request import urlopen
fp = urlopen("http://google.com")
encoding = fp.headers.get_content_charset()
html = fp.read()
print(html.decode(encoding))
Проверено, работает
3
4866 / 3287 / 468
Регистрация: 10.12.2008
Сообщений: 10,570
22.08.2013, 08:15
http://docs.python.org/3/libra... sponse.msg
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
22.08.2013, 08:15
Помогаю со студенческими работами здесь

Как определить кодировку страницы через HttpURLConnection?
как определить кодировку страницы через HttpURLConnection? пытаюсь коннектиться из явы к какому-то сайту, чтобы считать с него страницу....

Задать правильную кодировку для текста с html-страницы
Всем привет. Используя Grab загружаю страничку сайта http://my-shop.ru/shop/books/1340679.html далее получаю название книги через xpath...

Зависание recv при скачивании html
Здравствуйте, пытаюсь порциями по 7000 Б скачать HTML страницу. Сначала все идет нормально, но в самом конце функция просто виснет на ~1...

Зависание recv при скачивании html
Здравствуйте, пытаюсь порциями по 7000 Б скачать HTML страницу. Сначала все идет нормально, но в самом конце функция просто виснет на ~1...

Как определить кодировку при востановлении БД?
Необходимо востановить базу данных Есть дамп (см. атач), был получен не мною через mysqldump cкорее всего с дефолтными параметрами ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Опции темы

Новые блоги и статьи
Отчёт о спецтехнике находящейся в ремонте
Maks 20.04.2026
Отчёт из решения ниже размещен в конфигурации КА2. Задача: отобразить спецтехнику, которая на данный момент находится в ремонте. Есть нетиповой документ "Заявка на ремонт спецтехники" который. . .
Памятка для бота и "визитка" для читателей "Semantic Universe Layer (Слой семантической вселенной)"
Hrethgir 19.04.2026
Сгенерировано для краткого описания по случаю сборки и компиляции скелета серверного приложения. И пусть после этого скажут, что статьи сгенерированные AI - туфта и не интересно. И это не реклама -. . .
Запрет удаления строк ТЧ документа при определенном условии
Maks 19.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "Аккумуляторы", разработанного в конфигурации КА2. У данного документа есть ТЧ, в которой в зависимости от прав доступа. . .
Модель заражения группы наркоманов
alhaos 17.04.2026
Условия задачи сформулированы тут Суть: - Группа наркоманов из 10 человек. - Только один инфицирован ВИЧ. - Колются одной иглой. - Колются раз в день. - Колются последовательно через. . .
Мысли в слух. Про "навсегда".
kumehtar 16.04.2026
Подумалось тут, что наверное очень глупо использовать во всяких своих установках понятие "навсегда". Это очень сильное понятие, и я только начинаю понимать край его смысла, не смотря на то что давно. . .
My Business CRM
MaGz GoLd 16.04.2026
Всем привет, недавно возникла потребность создать CRM, для личных нужд. Собственно программа предоставляет из себя базу данных клиентов, в которой можно фиксировать звонки, стадии сделки, а также. . .
Знаешь почему 90% людей редко бывают счастливыми?
kumehtar 14.04.2026
Потому что они ждут. Ждут выходных, ждут отпуска, ждут удачного момента. . . а удачный момент так и не приходит.
Фиксация колонок в отчете СКД
Maks 14.04.2026
Фиксация колонок в СКД отчета типа Таблица. Задача: зафиксировать три левых колонки в отчете. Процедура ПриКомпоновкеРезультата(ДокументРезультат, ДанныеРасшифровки, СтандартнаяОбработка) / / . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru