Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/21: Рейтинг темы: голосов - 21, средняя оценка - 4.67
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,755

Проблема с кириллицей при парсинге

30.07.2022, 12:59. Показов 4729. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Microsoft Windows [Version 10.0.19044.1826]
(c) Корпорация Майкрософт (Microsoft Corporation). Все права защищены.
 
C:\Users\admin>chcp
Текущая кодовая страница: 866
 
C:\Users\admin>CHCP 65001
Active code page: 65001
 
C:\Users\admin>python
Python 3.10.5 (tags/v3.10.5:f377153, Jun  6 2022, 16:14:13) [MSC v.1929 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import os
>>> os.chdir('C:\parsing\PythonToday\lesson1')
>>> with open("blank/index.html") as file:
...     src = file.read()
...
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(src, "lxml")
>>> soup.title
<title>Главная страница блога</title>
>>> print('Привет')
Привет
>>>
Добавлено через 1 минуту
Исходная кодировка файла UTF-8

Добавлено через 19 минут
Вроде разобрался сам. В CMD выполнил intl.cpl и там выставил глобально UTF-8.
1
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
30.07.2022, 12:59
Ответы с готовыми решениями:

Проблема при парсинге
Всем привет! Помогите, пожалуйста, новичку решить проблему. Пишу парсер магазина. Скрипт постранично вытаскивает ссылки лотов и далее...

Проблема тегами при парсинге сайта
у меня есть сайт matol.kz и я создаю бота который будет уведомлять при появлении новых олимпиад в чем заключается проблема? я...

Проблема с кодировкой при парсинге
Обучаюсь парсингу и начал писать свой собственный код. Хронология действий: - Скопировал главную страницу в html файл на свой...

2
148 / 111 / 37
Регистрация: 28.11.2013
Сообщений: 383
02.08.2022, 00:33
Замените 15 строку на это
Python
1
2
with open("blank/index.html", "r", encoding="utf-8") as file:
...     src = file.read()
2
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,755
17.08.2022, 08:14  [ТС]
А если без записывания на жесткий диск, то куда подставлять кодировку, в случае, если возникнут проблемы?
Python
1
2
3
4
5
6
7
8
9
from bs4 import BeautifulSoup
import requests
 
url = "https://ru.wikipedia.org/wiki/Список_рек_по_длине"
 
req = requests.get(url)
src = req.text
soup = BeautifulSoup(src, "html.parser")
print(soup)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
17.08.2022, 08:14
Помогаю со студенческими работами здесь

Проблема с кодировкой при парсинге
Уважаемые программисты. Изучаю python. Есть Html: &lt;!DOCTYPE html&gt; &lt;head&gt;&lt;title&gt;Заголовок веб-сайта&lt;/title&gt;&lt;/head&gt; ...

Проблема с Кириллицей в программе при выводе содержимого файла
Всем здравствуйте. Задача написать программа для чтения файла формата rtf (Rich Text Format). Сам формат довольно специфический поэтому...

Проблема при парсинге JSON
Создал программу, которая скачивает данные пользователя с vk api, парсит их и говорит, онлайн он или нет. Каких только способов не...

Проблема с кавычками при парсинге сайта
У меня есть рабочий код: using HtmlAgilityPack; using HtmlDocument = HtmlAgilityPack.HtmlDocument; using System.Text; ...

Проблема получения атрибутов при парсинге xml
Здравствуйте. Подскажите как разобраться xml документом. У меня есть xsd-схема: &lt;?xml version = '1.0' encoding = 'utf-8'?&gt; ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Контроль уникальности заводского номера - вариант №2
Maks 24.03.2026
В отличие от предыдущего варианта добавлено прерывание циклов, также добавлены новые переменные для сохранения контекста ошибки перед прерыванием цикла: Процедура ПередЗаписью(Отказ, РежимЗаписи,. . .
SDL3 для Desktop (MinGW): Вывод текста со шрифтом TTF с помощью библиотеки SDL3_ttf на Си и C++
8Observer8 24.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-text-sdl3-c. zip finish-text-sdl3-cpp. zip
Жизнь в неопределённости
kumehtar 23.03.2026
Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .
Модель здравоСохранения: работники работают быстрее после её введения.
anaschu 23.03.2026
geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .
Контроль уникальности заводского номера - вариант №1
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере документа выдачи шин для спецтехники с табличной частью. Данные берутся из регистра сведений, по которому настроено. . .
Хочу заставить корпорации вкладываться в здоровье сотрудников: делаю мат модель здравосохранения
anaschu 22.03.2026
e7EYtONaj8Y Z4Tv2zpXVVo https:/ / github. com/ shumilovas/ med2. git
Программный отбор элементов справочника по группе
Maks 22.03.2026
Установка программного отбора элементов справочника "Номенклатура" из модуля формы документа. В качестве фильтра для отбора справочника служит группа номенклатуры. Отбор по наименованию группы. . .
Как я обхитрил таблицу Word
Alexander-7 21.03.2026
Когда мигает курсор у внешнего края таблицы, и нам надо перейти на новую строку, а при нажатии Enter создается новый ряд таблицы с ячейками, то мы вместо нервных нажатий Энтеров мы пишем любые буквы. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru