Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/21: Рейтинг темы: голосов - 21, средняя оценка - 4.67
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,753

Проблема с кириллицей при парсинге

30.07.2022, 12:59. Показов 4631. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Microsoft Windows [Version 10.0.19044.1826]
(c) Корпорация Майкрософт (Microsoft Corporation). Все права защищены.
 
C:\Users\admin>chcp
Текущая кодовая страница: 866
 
C:\Users\admin>CHCP 65001
Active code page: 65001
 
C:\Users\admin>python
Python 3.10.5 (tags/v3.10.5:f377153, Jun  6 2022, 16:14:13) [MSC v.1929 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import os
>>> os.chdir('C:\parsing\PythonToday\lesson1')
>>> with open("blank/index.html") as file:
...     src = file.read()
...
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(src, "lxml")
>>> soup.title
<title>Главная страница блога</title>
>>> print('Привет')
Привет
>>>
Добавлено через 1 минуту
Исходная кодировка файла UTF-8

Добавлено через 19 минут
Вроде разобрался сам. В CMD выполнил intl.cpl и там выставил глобально UTF-8.
1
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
30.07.2022, 12:59
Ответы с готовыми решениями:

Проблема при парсинге
Всем привет! Помогите, пожалуйста, новичку решить проблему. Пишу парсер магазина. Скрипт постранично вытаскивает ссылки лотов и далее...

Проблема тегами при парсинге сайта
у меня есть сайт matol.kz и я создаю бота который будет уведомлять при появлении новых олимпиад в чем заключается проблема? я...

Проблема с кодировкой при парсинге
Обучаюсь парсингу и начал писать свой собственный код. Хронология действий: - Скопировал главную страницу в html файл на свой...

2
148 / 111 / 37
Регистрация: 28.11.2013
Сообщений: 383
02.08.2022, 00:33
Замените 15 строку на это
Python
1
2
with open("blank/index.html", "r", encoding="utf-8") as file:
...     src = file.read()
2
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,753
17.08.2022, 08:14  [ТС]
А если без записывания на жесткий диск, то куда подставлять кодировку, в случае, если возникнут проблемы?
Python
1
2
3
4
5
6
7
8
9
from bs4 import BeautifulSoup
import requests
 
url = "https://ru.wikipedia.org/wiki/Список_рек_по_длине"
 
req = requests.get(url)
src = req.text
soup = BeautifulSoup(src, "html.parser")
print(soup)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
17.08.2022, 08:14
Помогаю со студенческими работами здесь

Проблема с кодировкой при парсинге
Уважаемые программисты. Изучаю python. Есть Html: &lt;!DOCTYPE html&gt; &lt;head&gt;&lt;title&gt;Заголовок веб-сайта&lt;/title&gt;&lt;/head&gt; ...

Проблема с Кириллицей в программе при выводе содержимого файла
Всем здравствуйте. Задача написать программа для чтения файла формата rtf (Rich Text Format). Сам формат довольно специфический поэтому...

Проблема при парсинге JSON
Создал программу, которая скачивает данные пользователя с vk api, парсит их и говорит, онлайн он или нет. Каких только способов не...

Проблема с кавычками при парсинге сайта
У меня есть рабочий код: using HtmlAgilityPack; using HtmlDocument = HtmlAgilityPack.HtmlDocument; using System.Text; ...

Проблема получения атрибутов при парсинге xml
Здравствуйте. Подскажите как разобраться xml документом. У меня есть xsd-схема: &lt;?xml version = '1.0' encoding = 'utf-8'?&gt; ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Первый деплой
lagorue 16.01.2026
Не спеша развернул своё 1ое приложение в kubernetes. А дальше мне интересно создать 1фронтэнд приложения и 2 бэкэнд приложения развернуть 2 деплоя в кубере получится 2 сервиса и что-бы они. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит: токи, напряжения и их 1 и 2 производные при t = 0;. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Изучаю kubernetes
lagorue 13.01.2026
А пригодятся-ли мне знания kubernetes в России?
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru