Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/4: Рейтинг темы: голосов - 4, средняя оценка - 4.75
0 / 0 / 0
Регистрация: 07.07.2021
Сообщений: 2

Requests искажает получаемую html страницу

19.05.2022, 11:52. Показов 830. Ответов 3

Студворк — интернет-сервис помощи студентам
Формальная ссылка, чтобы точно без вопросов от сайта ко мне. Использованы ресурсы https://rasp.tpu.ru/

Здравствуйте киберфорумцы, мой первый вопрос к вам, не судите строго. Возникли непонимания по поводу одного момента работы с request. Не первый раз библиотека меня подводит, и вместо одного кода html присылает другой. К конкретике.
Пишу parser, чтобы брать с сайта расписания моего учебного заведения расписание на сегодня. Типичная страница расписания группы https://rasp.tpu.ru/gruppa_370... 16.05.2022

Ближе к коду. Чисто показательный код, показывающий проблему

Python
1
2
3
4
5
6
7
8
9
10
11
12
from bs4 import BeautifulSoup as bs4
import requests
 
# Без парамаетра User-Agent не будет работать
 
url = "https://rasp.tpu.ru/gruppa_37021/2021/38/view.html"     # Ссылка на расписание группы
html = requests.get(url, headers = {'User-Agent':
                            'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/10.0.0'}) # беру html код
html.encoding = 'utf-8'    # На случай неправильной кодировки символов
soup = bs4(html.text, features="lxml")    # Создаю объект soup из кода html страницы
f = soup.find('td', class_='cell')              # Беру и нахожу конкретную пару - первое занятие первого дня недели
print(f)
Таким образом найдётся (взял отрывок html кода из страницы ссылки выше) объект html с тегом 'td' и class="cell" . Правильный вариант:
HTML5
1
2
3
4
5
6
7
8
<td class="cell  hidden-xs" style="background-color: rgba(148,187,65,0.2) !important">
                                        <div><span class="" data-encrypt="0bvRqNG40bTQlNC40ZTQntGG0JnRotGo0Zx10LXRndGp0as=" data-title="0bvRqNG40bTQlNC40ZTQntGG0JnRotGo0Zx10LXRndGp0as=" title="Электрические цепи">Электрические цепи</span> (<b title="Лабораторная работа">ЛБ</b>)</div>
                <div><a class="green" href="/user_62470/2021/38/view.html?date=16.05.2022">Ярославцев Е. В.</a></div>
                <div>к. <a class="green" href="/sooruzhenie_5/2021/38/view.html?date=16.05.2022">4</a>, ауд. <a class="green" href="/pomeschenie_1180/2021/38/view.html?date=16.05.2022">107</a></div>
                <div><div class="btn-group"><div class="btn btn-icon" title="В аудитории" style="color: #0072bc"><i class="icon-location4"></i></div></div></div>
    
    
                        </td>

Вместо этого, получаю который заслужил:

# print(f)
HTML5
1
2
3
4
5
6
<td class="cell hidden-xs" style="background-color: rgba(148,187,65,0.2) !important">
<div><span class="encrypt" data-encrypt="0J/RlNGh0IjQjNGz0bvQltGv0KrRstCO0aBl0JDRttCN0Zc=" data-title="0J/RlNGh0IjQjNGz0bvQltGv0KrRstCO0aBl0JDRttCN0Zc="></span> (<b title="Лабораторная работа">ЛБ</b>)</div>
<div><a class="green" href="/user_62470/2021/38/view.html?date=16.05.2022">Ярославцев Е. В.</a></div>
<div>к. <a class="green" href="/sooruzhenie_5/2021/38/view.html?date=16.05.2022">4</a>, ауд. <a class="green" href="/pomeschenie_1180/2021/38/view.html?date=16.05.2022">107</a></div>
<div><div class="btn-group"><div class="btn btn-icon" style="color: #0072bc" title="В аудитории"><i class="icon-location4"></i></div></div></div>
</td>
Делаю вывод - для этого занятия я могу взять что угодно, но не название предмета, потому что огрызок тега <span>
HTML5
1
title="Электрические цепи">Электрические цепи
куда-то пропадает, и это проблема, причём это точно ошибка именно в коде страницы html, который получается при запросе requests.get() командой. Надеюсь, все моменты описал полно.

Чего я здесь не понимаю?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
19.05.2022, 11:52
Ответы с готовыми решениями:

Requests парсит не ту страницу
Добрый день. Подскажите пожалуййста, в чем может быть ошибка при парсинге сайта. Использую requests, но он парсит только одну страницу, да...

Flask, requests. обновить страницу
Крутится локальный сервер. Пользователь из GUI может вносить некоторые изменения в html файлы, которые после обновления страницы...

Как отправить запрос HTTP, а в ответ получаемую страницу не показывать пользователю?
Как отправить запрос HTTP, а в ответ получаемую страницу не показывать пользователю? я делаю это на Javascript но почему то получается...

3
Модератор
Эксперт Python
 Аватар для Fudthhh
2695 / 1601 / 513
Регистрация: 21.02.2017
Сообщений: 4,210
Записей в блоге: 1
19.05.2022, 13:50
KWARC, а ты не думал что в страницу данные могут записываться через javscript, открой исходный код страницы, прокрути вниз и узри.
1
0 / 0 / 0
Регистрация: 07.07.2021
Сообщений: 2
20.05.2022, 08:25  [ТС]
Да, есть что-то с js (на скрине).

Цитата Сообщение от Fudthhh Посмотреть сообщение
в страницу данные могут записываться через javscript
То есть данные могут быть записаны выполнением файла js? Тогда что в таком следует сделать? Как извлечь данные?
Миниатюры
Requests искажает получаемую html страницу  
0
Модератор
Эксперт Python
 Аватар для Fudthhh
2695 / 1601 / 513
Регистрация: 21.02.2017
Сообщений: 4,210
Записей в блоге: 1
20.05.2022, 08:33
KWARC, я не знаю что там в js, разбираться не горю желанием. requests не выполняет (не умеет) скрипты на странице, для таких целей используют selenium, возможно я и ошибся, но учитывая что сейчас абсолютно везде суют js и это страница расписания, то на месте создателя я бы заполнял эту таблицу динамически.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
20.05.2022, 08:33
Помогаю со студенческими работами здесь

Requests, html, xpath
Всем доброе время суток, никак не могу понять почему не работает запрос xpath, помогите пожалуйста: import requests from lxml import...

Библиотека requests возвращает разный html код
В файл &quot;index.html&quot; я запихиваю метод .get() URL =...

Как редактировать HTML при выполнении requests.get()
В запрос передаётся URL-страницы и некоторые данные из заголовка запроса. По адресу расположено изображение. Запрос выполняется нормально,...

Python 3 + requests. Цель: получить проверку от Nu HTML Checker
Хочу запросом получить ответ от валидатора ttp://validator.w3.org/nu/ Вот дока:...

Авторизация на сайте через соцсети (Python Requests/HTML)
На сайте (скрин) необходимо пройти авторизацию. Конечно, как-нибудь можно ввести номер телефона, попробовать зайти через пароль,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
Жизнь в неопределённости
kumehtar 23.03.2026
Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .
Модель здравоСохранения: работники работают быстрее после её введения.
anaschu 23.03.2026
geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .
1С: Контроль уникальности заводского номера
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере документа выдачи шин для спецтехники с табличной частью. Данные берутся из регистра сведений, по которому настроено. . .
Хочу заставить корпорации вкладываться в здоровье сотрудников: делаю мат модель здравосохранения
anaschu 22.03.2026
e7EYtONaj8Y Z4Tv2zpXVVo https:/ / github. com/ shumilovas/ med2. git
1С: Программный отбор элементов справочника по группе
Maks 22.03.2026
Установка программного отбора элементов справочника "Номенклатура" из модуля формы документа. В качестве фильтра для отбора справочника служит группа номенклатуры. Отбор по наименованию группы. . .
Как я обхитрил таблицу Word
Alexander-7 21.03.2026
Когда мигает курсор у внешнего края таблицы, и нам надо перейти на новую строку, а при нажатии Enter создается новый ряд таблицы с ячейками, то мы вместо нервных нажатий Энтеров мы пишем любые буквы. . .
Krabik - рыболовный бот для WoW 3.3.5a
AmbA 21.03.2026
без регистрации и смс. Это не торговля, приложение не содержит рекламы. Выполняет свою непосредственную задачу - автоматизацию рыбалки в WoW - и ничего более. Однако если админы будут против -. . .
1С: Программный отбор элементов справочника по значению перечисления
Maks 21.03.2026
Установка программного отбора элементов справочника "Сотрудники" из модуля формы документа. В качестве фильтра для отбора служит значение перечислений. / / Событие "НачалоВыбора" реквизита на форме. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru