|
6 / 6 / 1
Регистрация: 22.10.2012
Сообщений: 36
|
||
Grab: кодировка текста25.04.2014, 07:48. Показов 16652. Ответов 5
Метки нет (Все метки)
Накидал парсер новостей с lenta.ru и gazeta.ru.
Использовал grab 0.4.13. python 3.3.5 под w8.1 Проблема такая: Текст вытаскивается из grab.response.body. С ленты вытаскивается нормально, с газеты.ру вытаскиваются только знаки препинания, текст не тащиться. Насколько знаю, grab.response.body возвращает текст в utf-8, на газеты charset=cp1251. Пробовал читать body_as_bytes() (побайтово), тогда с ленты грабятся иероглифы, а с газеты нормальный, нужный текст.. Кто сталкивался?Что делать? .encode(),.decode() не помогают.. При body_as_bytes():
0
|
||
| 25.04.2014, 07:48 | |
|
Ответы с готовыми решениями:
5
Кодировка текста Кодировка текста |
|
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
|
|
| 25.04.2014, 10:14 | |
|
Leshkin, попробуй считывать с помощью body_as_bytes() и потом к полученым данным примени метод .decode('cp1251'). Ну кодировку естественно применяй к каждому сайту свою.
0
|
|
|
6 / 6 / 1
Регистрация: 22.10.2012
Сообщений: 36
|
||
| 25.04.2014, 10:27 [ТС] | ||
|
при граббинге с ленты.ру вылетает ошибка:UnicodeDecodeError: 'charmap' codec can't decode byte 0x98 in position 124: character maps to <undefined>
0
|
||
|
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
|
|
| 25.04.2014, 10:33 | |
|
Leshkin, газета.ру таким образом нормально парсится?
0
|
|
|
6 / 6 / 1
Регистрация: 22.10.2012
Сообщений: 36
|
|
| 25.04.2014, 10:40 [ТС] | |
|
tsar925, газета.ру и без decode() прсто body_as_bytes() хорошо парсится.
причем с mail.ru тоже нормально парсится.
0
|
|
|
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
|
|||||||||||
| 25.04.2014, 10:46 | |||||||||||
Сообщение было отмечено Leshkin как решение
Решение
Я ни когда grab не пользовался, могу показать как тоже самое сделать с помощью другой библиотеки.
1
|
|||||||||||
| 25.04.2014, 10:46 | |
|
Помогаю со студенческими работами здесь
6
Кодировка текста Кодировка текста Кодировка текста Кодировка текста Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
моя боль
iceja 24.01.2026
Выложила интерполяцию кубическими сплайнами www. iceja. net
REST сервисы временно не работают, только через Web.
Написала за 56 рабочих часов этот сайт с нуля. При помощи perplexity. ai PRO , при. . .
|
Модель сукцессии микоризы
anaschu 24.01.2026
Решили писать научную статью с неким РОманом
|
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
|
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма).
На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
|
|
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ *
Дана цепь(не выше 3-го порядка) постоянного тока с элементами R, L, C, k(ключ), U, E, J. Программа находит переходные токи
и напряжения на элементах схемы классическим методом(1 и 2 з-ны. . .
|
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым.
Но восстановить их можно так.
Для этого понадобится консольная утилита. . .
|
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
|
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11
— это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
|