Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.93/30: Рейтинг темы: голосов - 30, средняя оценка - 4.93
4 / 4 / 0
Регистрация: 30.11.2011
Сообщений: 53

Python и Beautifulsoup кодировка

29.06.2012, 00:06. Показов 5915. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Python
1
2
3
page = urllib2.urlopen("http://www.*******")
soup = BeautifulSoup(page.read())
a = soup.findAll('a',{'class' : 'item'})
Получаю список с элементами. Он отображается нормально, с русскими символами.
Но если элемент списка, в котором кирилица засунуть в словарь или другой список - в нем они отображаются в виде "u'\u0420\u0435\u0430" и т.д. На сайте кодировка windows-1251.
Как решить проблему с кодировкой?

Добавлено через 22 минуты
Проблема даже не в Beatufulsoup. Попробовал lxml. Симптомы те же. Когда записываю что то в словарь или список - там белеберда.

Добавлено через 2 часа 19 минут
Локализую проблему...
Как в питоне 2.7 вставить кириллицу в словарь или в список?
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
29.06.2012, 00:06
Ответы с готовыми решениями:

Парсер Python BeautifulSoup
Всем доброго времени суток. Помогите пожалуйста решить вопрос. Я новичок в Пайтоне При парсинге сайтов с доменом "ru" выдает...

BeautifulSoup parser Python ( одинаковые атрибуты )
Подскажите пожалуйста - что делать если классы\id одинаковые во многих блоках, но данные содержащиеся в них разные.. Как достать к...

Кодировка в Python 3
Собственно проблема такая: :coffee2: import requests html =...

5
4866 / 3288 / 468
Регистрация: 10.12.2008
Сообщений: 10,570
29.06.2012, 01:28
Цитата Сообщение от Innex Посмотреть сообщение
Но если элемент списка, в котором кирилица засунуть в словарь или другой список - в нем они отображаются в виде "u'\u0420\u0435\u0430" и т.д.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
>>> s = u"\u0420\u0435\u0430"
>>> print s
Реа
>>> tup = s, s, s
>>> print tup
(u'\u0420\u0435\u0430', u'\u0420\u0435\u0430', u'\u0420\u0435\u0430')
>>> for i in tup:
...   print i
... 
Реа
Реа
Реа
>>>
Цитата Сообщение от Innex Посмотреть сообщение
Он отображается нормально, с русскими символами.
то есть ты неправильно отображаешь список
выводишь его на экран, а надо выводить его поэлементно
1
4 / 4 / 0
Регистрация: 30.11.2011
Сообщений: 53
29.06.2012, 02:15  [ТС]
Спасибо. Я это уже понял...
а что б он в консоле или ide нормально отображался можно как то сделать?
0
4866 / 3288 / 468
Регистрация: 10.12.2008
Сообщений: 10,570
29.06.2012, 03:40
можно поставить третий питон

Python
1
2
3
4
>>> s = 'абвг'
>>> s, s, s
('абвг', 'абвг', 'абвг')
>>>
но там всё по-другому
0
4 / 4 / 0
Регистрация: 06.07.2012
Сообщений: 34
06.07.2012, 17:31
Во-первых необходимо выводить поэлементно.
Во-вторых, как вариант, каждый элемент преобразуешь в строку. Если и строка выводится криво, то можно сделать s.decode("utf-8").
Так же не забывай указывать # -*- coding: utf-8 -*-
0
4 / 4 / 0
Регистрация: 30.11.2011
Сообщений: 53
07.07.2012, 01:09  [ТС]
Про поэлементно уже сказали и это единственный выход.
Преобразовать в строку в этом случае нет никакого смысла, так как тут парсер, а ему без разницы что и с чем сравнивать.
Указывать кодировку в этом случае тоже не дает никакого результата.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
07.07.2012, 01:09
Помогаю со студенческими работами здесь

Python кодировка
Проблема такая: я со HTML -страницы считал текст, и записал его в текстовый файл, но его записал в таком виде , как это можно исправить?...

Кодировка Python
Есть текстовый файл. необходимо разбить текст на слова и преобразовать их в нормальную форму с помощью pymorphy. Для работы с русскими...

Кодировка в Python
Здравствуйте, есть небольшая проблемка с кодировкой в Python. Пытаюсь получить данные с web-страницы при помощи стандартной библиотеки...

Кодировка Python 3
Всем привет, пишу некоторый гуй под виндой семеркой, и мне понадобилось вызвать внешнюю программу, используя subprocess. Возникла проблема...

Кодировка в python
Такая проблема: хочу использовать кодировку ascii для использования в одном куске программки. Решил, для начала, проверить что выведется, ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru