Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.72/18: Рейтинг темы: голосов - 18, средняя оценка - 4.72
5 / 5 / 2
Регистрация: 25.08.2013
Сообщений: 67

Парсинг русских сайтов

11.04.2014, 23:10. Показов 3617. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте! Я учусь парсить сайты. На примере википедии. Возникла проблема: когда запускаю для английской википедии, всё хорошо. А когда для русской, появляется ошибка "ParseError: undefined entity: line 480, column 9". Думаю, дело в кодировках, но не знаю, как исправить. Вот код:
Python
1
2
3
4
5
6
7
8
9
10
11
from urllib2 import urlopen
import random
from lxml.html import fromstring
conn = urlopen('https://en.wikipedia.org/wiki/Main_Page')
data = conn.read()
html = data.decode('utf-8')
f = open('wiki.html', 'w')
f.write(data)
f.close()
import xml.etree.ElementTree as ET
tree = ET.parse ('wiki.html')
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
11.04.2014, 23:10
Ответы с готовыми решениями:

Парсинг сайтов на Python
Всем привет. В программировании новичок. Появилась необходимость спарсить страничку Пробовал через BeautifulSoup. Получился такой код: ...

Парсинг сайтов. Поиск всех ссылок на странице
Суть вопроса думаю ясна. Есть интернет страница, с нее нужно выдрать ссылки. Решил воспользоваться lxml.html. Делаю аналогично примеру...

Парсинг сайтов с информации о телефонах
Моя проблема в том что я не знаю как сделать парсинг предмета который я ищу на сайте. В коде надо сделать переменую которая будет...

2
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
11.04.2014, 23:51
maria_, советую тебе лучше использовать модуль lxml.html и все будет хорошо.
P.S а за место urllib2 пользуйся модулем requests (он более высокоуровневый и там почти все сделано за тебя, получение странички делаться с помощью 1 строки кода)
1
 Аватар для t1m0n
638 / 416 / 27
Регистрация: 03.11.2009
Сообщений: 1,855
12.04.2014, 02:07
у вики есть апи, можно получать данные сразу в xml
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
12.04.2014, 02:07
Помогаю со студенческими работами здесь

Парсинг сайтов с динамическими данными
Всем привет Два дня мучаюсь над одной проблемой, не могу решить и все, перерыл кучу информации, результат около нуля Задача:...

Раскрутка англоязычных сайтов ссылками на русских
Здравствуйте коллеги! Кто-нибуть пробовал раскручивать англоязычные сайты, покупаю ссылки на РУССКИХ сайтах через SAPE или др русские...

Visual InterDev 6 для русских сайтов
У меня Win2K English edition, я пишу сайты на english в Visual Interdev 6 и VB 6, а вот на русском не получается. Когда я пытаюсь сохранить...

непускает на главные страницы русских сайтов
Доброго времени суток! Сталкнулся с такой проблемой. Интернет работает нормально но пару дней назад перестал заходить на русские...

Отличия оптимизации зарубежных сайтов от русских?
С Яндексом более-менее всё понятно, по практиковался :) <b>Появилась задача оптимизировать зарубежные сайты, естественно под...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru