|
6 / 6 / 1
Регистрация: 22.10.2012
Сообщений: 36
|
||
Grab: кодировка текста25.04.2014, 07:48. Показов 16951. Ответов 5
Метки нет (Все метки)
Накидал парсер новостей с lenta.ru и gazeta.ru.
Использовал grab 0.4.13. python 3.3.5 под w8.1 Проблема такая: Текст вытаскивается из grab.response.body. С ленты вытаскивается нормально, с газеты.ру вытаскиваются только знаки препинания, текст не тащиться. Насколько знаю, grab.response.body возвращает текст в utf-8, на газеты charset=cp1251. Пробовал читать body_as_bytes() (побайтово), тогда с ленты грабятся иероглифы, а с газеты нормальный, нужный текст.. Кто сталкивался?Что делать? .encode(),.decode() не помогают.. При body_as_bytes():
0
|
||
| 25.04.2014, 07:48 | |
|
Ответы с готовыми решениями:
5
Кодировка текста Кодировка текста |
|
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
|
|
| 25.04.2014, 10:14 | |
|
Leshkin, попробуй считывать с помощью body_as_bytes() и потом к полученым данным примени метод .decode('cp1251'). Ну кодировку естественно применяй к каждому сайту свою.
0
|
|
|
6 / 6 / 1
Регистрация: 22.10.2012
Сообщений: 36
|
||
| 25.04.2014, 10:27 [ТС] | ||
|
при граббинге с ленты.ру вылетает ошибка:UnicodeDecodeError: 'charmap' codec can't decode byte 0x98 in position 124: character maps to <undefined>
0
|
||
|
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
|
|
| 25.04.2014, 10:33 | |
|
Leshkin, газета.ру таким образом нормально парсится?
0
|
|
|
6 / 6 / 1
Регистрация: 22.10.2012
Сообщений: 36
|
|
| 25.04.2014, 10:40 [ТС] | |
|
tsar925, газета.ру и без decode() прсто body_as_bytes() хорошо парсится.
причем с mail.ru тоже нормально парсится.
0
|
|
|
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
|
|||||||||||
| 25.04.2014, 10:46 | |||||||||||
Сообщение было отмечено Leshkin как решение
Решение
Я ни когда grab не пользовался, могу показать как тоже самое сделать с помощью другой библиотеки.
1
|
|||||||||||
| 25.04.2014, 10:46 | |
|
Помогаю со студенческими работами здесь
6
Кодировка текста Кодировка текста Кодировка текста Кодировка текста Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях.
Задача: при копировании документа очищать определенные реквизиты и табличную. . .
|
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git
main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели
8ATzM_2aurI
|
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2.
Задача: запретить редактирование документа, если он открыт у другого пользователя.
/ / . . .
|
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои.
А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
|
|
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20%
kYBz3eJf3jQ
|
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
|
Горе от ума
kumehtar 07.04.2026
Эта мне ментальная установка, что вот прямо сейчас, мол, мне для полного счастья не хватает (нужное вписать), и когда я этого достигну - тогда и полный кайф. Одна из самых сильных ловушек на пути. . . .
|
Использование значений реквизитов справочника в документе, с определенными условиями и правами
Maks 07.04.2026
1. Контроль срока действия договора
Алгоритм из решения ниже реализован на примере нетипового документа "ЗаявкаНаРаботу", разработанного в конфигурации КА2.
Задача: уведомлять пользователя, если. . .
|