Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.72/18: Рейтинг темы: голосов - 18, средняя оценка - 4.72
5 / 5 / 2
Регистрация: 25.08.2013
Сообщений: 67

Парсинг русских сайтов

11.04.2014, 23:10. Показов 3596. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте! Я учусь парсить сайты. На примере википедии. Возникла проблема: когда запускаю для английской википедии, всё хорошо. А когда для русской, появляется ошибка "ParseError: undefined entity: line 480, column 9". Думаю, дело в кодировках, но не знаю, как исправить. Вот код:
Python
1
2
3
4
5
6
7
8
9
10
11
from urllib2 import urlopen
import random
from lxml.html import fromstring
conn = urlopen('https://en.wikipedia.org/wiki/Main_Page')
data = conn.read()
html = data.decode('utf-8')
f = open('wiki.html', 'w')
f.write(data)
f.close()
import xml.etree.ElementTree as ET
tree = ET.parse ('wiki.html')
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
11.04.2014, 23:10
Ответы с готовыми решениями:

Парсинг сайтов на Python
Всем привет. В программировании новичок. Появилась необходимость спарсить страничку Пробовал через BeautifulSoup. Получился такой код: ...

Парсинг сайтов. Поиск всех ссылок на странице
Суть вопроса думаю ясна. Есть интернет страница, с нее нужно выдрать ссылки. Решил воспользоваться lxml.html. Делаю аналогично примеру...

Парсинг сайтов с информации о телефонах
Моя проблема в том что я не знаю как сделать парсинг предмета который я ищу на сайте. В коде надо сделать переменую которая будет...

2
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
11.04.2014, 23:51
maria_, советую тебе лучше использовать модуль lxml.html и все будет хорошо.
P.S а за место urllib2 пользуйся модулем requests (он более высокоуровневый и там почти все сделано за тебя, получение странички делаться с помощью 1 строки кода)
1
 Аватар для t1m0n
638 / 416 / 27
Регистрация: 03.11.2009
Сообщений: 1,855
12.04.2014, 02:07
у вики есть апи, можно получать данные сразу в xml
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
12.04.2014, 02:07
Помогаю со студенческими работами здесь

Парсинг сайтов с динамическими данными
Всем привет Два дня мучаюсь над одной проблемой, не могу решить и все, перерыл кучу информации, результат около нуля Задача:...

Раскрутка англоязычных сайтов ссылками на русских
Здравствуйте коллеги! Кто-нибуть пробовал раскручивать англоязычные сайты, покупаю ссылки на РУССКИХ сайтах через SAPE или др русские...

Visual InterDev 6 для русских сайтов
У меня Win2K English edition, я пишу сайты на english в Visual Interdev 6 и VB 6, а вот на русском не получается. Когда я пытаюсь сохранить...

непускает на главные страницы русских сайтов
Доброго времени суток! Сталкнулся с такой проблемой. Интернет работает нормально но пару дней назад перестал заходить на русские...

Отличия оптимизации зарубежных сайтов от русских?
С Яндексом более-менее всё понятно, по практиковался :) <b>Появилась задача оптимизировать зарубежные сайты, естественно под...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Первый деплой
lagorue 16.01.2026
Не спеша развернул своё 1ое приложение в kubernetes. А дальше мне интересно создать 1фронтэнд приложения и 2 бэкэнд приложения развернуть 2 деплоя в кубере получится 2 сервиса и что-бы они. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит: токи, напряжения и их 1 и 2 производные при t = 0;. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Изучаю kubernetes
lagorue 13.01.2026
А пригодятся-ли мне знания kubernetes в России?
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru