С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python: Сети
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/11: Рейтинг темы: голосов - 11, средняя оценка - 5.00
0 / 0 / 0
Регистрация: 03.05.2022
Сообщений: 6

Как спарсить html страничку с JavaScript в python?

03.05.2022, 13:39. Показов 2131. Ответов 11

Студворк — интернет-сервис помощи студентам
Подскажите пожалуйста как при парсинге страницы подгрузить JavaScript таблицу. Знаю про 'response.html.render' но никак не могу привязать к коду. При таком варианте кода грузит 219 элементов cells (не прогружается табличка и собственно не те элементы). Всего должно быть 1078 элементов.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import re
import fake_useragent
import requests
from bs4 import BeautifulSoup as Soup
test = 'https://www.audit-it.ru/buh_otchet/7736050003_pao-gazprom'
session = requests.Session()
user = fake_useragent.UserAgent().random
header = {'user-agent': user}
data = {'AUTH_FORM': 'Y','TYPE': 'AUTH','USER_LOGIN': 'Testfortest','USER_PASSWORD': 'testfor123'}
response = session.post(test, data=data, headers=header)
soup = Soup(response.text, 'html.parser')
def to_int(item: str):
    return int(val) if (
        val := re.sub(r'[^\d-]|-(?!\d)|(?<!^)-', '',
            re.sub(r'\((.+)\)', r'-\1', item))) else None
cells = list(map(to_int,[item.get_text(strip=True)
            for item in soup.find_all('td', class_='calcCell')]))
print(len(cells))
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
03.05.2022, 13:39
Ответы с готовыми решениями:

Добавить на страницу Wordpress страничку html с javascript и css
Здравствуйте. Объясню суть проблемы: создал я сайт на Wordpress. На одну из страниц которого необходимо вставить другую страницу так, чтобы...

Как обновить страничку на JavaScript?
Обыскал весь форум, но так и не нашел рабочего варианта. Ситуация такая, на родительской странице я кликаю на кнопку, появляеться новое...

Как на С++ парсить html страничку?
Как на С++ парсить html страничку?

11
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
03.05.2022, 21:30
Python
1
2
3
4
5
6
7
8
In [1]: from requests_html import HTMLSession
In [2]: session = HTMLSession()
In [3]: response = session.get('https://www.audit-it.ru/buh_otchet/7736050003_pao-gazprom')
In [4]: response.html.render()
In [5]: tds = response.html.find('td.calcCell')
 
In [6]: len(tds)
Out[6]: 1076
1
0 / 0 / 0
Регистрация: 03.05.2022
Сообщений: 6
03.05.2022, 21:41  [ТС]
Jabbson, Там авторизация необходима (данные скрыты без подписки) Тут указан аккаунт с активной подпиской. Но я никак не могу понять почему когда я печатаю response - отсутствуют элементы 'hidden', значит произведен вход в аккаунт, подписка работает и прочее. Но если я печатаю soup - появляются элементы 'hidden'. Не понимаю что не так) (Я не мастер объяснять)
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import re
from requests_html import HTMLSession
from requests.auth import HTTPBasicAuth
from bs4 import BeautifulSoup as Soup
s = HTMLSession()
s.auth = HTTPBasicAuth("Samatas", "testtest123")
response = s.get('https://www.audit-it.ru/buh_otchet/7736050003_pao-gazprom')
response.html.render(scrolldown=True, sleep=5)
soup = Soup(response.html.raw_html, 'html.parser')
def to_int(item: str):
    return int(val) if (
        val := re.sub(r'[^\d-]|-(?!\d)|(?<!^)-', '',
            re.sub(r'\((.+)\)', r'-\1', item))) else None
cells = list(map(to_int,[item.get_text(strip=True)
            for item in soup.find_all('td', class_='calcCell')]))
print(len(cells))
print(cells[170])
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
03.05.2022, 21:47
Проблема была, что у вас не было достаточно элементов
Цитата Сообщение от BieKuf Посмотреть сообщение
Всего должно быть 1078 элементов.
Цитата Сообщение от BieKuf Посмотреть сообщение
При таком варианте кода грузит 219 элементов cells
Я показал, как забрать их все после рендера.

Теперь проблема, что отсутствуют элементы hidden. Проверить я не могу, подписки у меня, конечно же, нет, но могу посоветовать не использовать отдельно beautifulsoup, в requests_html достаточно функционала, чтобы делать парсинг, посмотрите в моем примере, я нашел все 'td' из отрисованного html, без дополнительных библиотек поверх requests_html.

Если приложите полный html страницы авторизированного пользователя, могу посмотреть.
0
0 / 0 / 0
Регистрация: 03.05.2022
Сообщений: 6
03.05.2022, 21:54  [ТС]
Jabbson, Данные авторизации: "Samatas", "testtest123" с активной подпиской. Мне просто нужен Beautifulsoup для дальнейших действий еще) Но не могу понять почему после передачи туда страницы нет авторизации (Я только начал разбираться в парсинге)
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
04.05.2022, 00:12
Лучший ответ Сообщение было отмечено BieKuf как решение

Решение

не знаю, почему не рендерится скрытое число, пока получилось только вот так вынуть данные

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
import re
import json
import requests
 
url = "https://www.audit-it.ru/my/login.php"
 
payload='AUTH_FORM=Y&backurl=%2Fbuh_otchet%2F7736050003_pao-gazprom%3Finn%3D7736050003&TYPE=AUTH&USER_LOGIN=Samatas&USER_PASSWORD=testtest123&Login='
headers = {
  'Content-Type': 'application/x-www-form-urlencoded'
}
 
response = requests.post(url, headers=headers, data=payload)
data = json.loads(re.search(r'>.*?const Data = ({.*?);', response.text, re.DOTALL).group(1))
print(data['2019']['values']['1110'])
Code
1
17102648
это значение вот отсюда
1
0 / 0 / 0
Регистрация: 03.05.2022
Сообщений: 6
04.05.2022, 00:19  [ТС]
Я уже думаю может это особенности сайта или что. 3 дня буквально сижу и не могу понять ничего что и как( Что только не пробовал. Но в суп передается почему-то неавторизированная страница (Раньше сайт был бесплатным )
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
04.05.2022, 00:22
Ну, все данные - вон они, через простой requests, вынутые из javascript-a в переменной data, можно использовать.
1
0 / 0 / 0
Регистрация: 03.05.2022
Сообщений: 6
04.05.2022, 00:25  [ТС]
Ну разве что так, только минусов нету тут) Например значение 'print(data['2021']['values']['2120'])' в скобках - должно быть с минусом) Не подскажите можно ли как-то реализовать это (чтобы значения в скобочках были со знаком минус) ? Впервые просто вообще вижу такую реализацию)
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
04.05.2022, 00:34
не совсем понимаю логику когда скобки - это минус, а когда нет, потому что в массиве данных не все значения, которые в таблице в скобках имеют отрицательное значение, например:
0
0 / 0 / 0
Регистрация: 03.05.2022
Сообщений: 6
04.05.2022, 00:39  [ТС]
Ну ладно. Спасибо вам огромное! Буду про JSON читать раз в супе проблема непонятная (вообще непонятная почему так (лично мне)) на ровном месте образовалась. Спасибо еще раз, вы очень помогли
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
04.05.2022, 01:21
Как вариант - selenium.

Python
1
2
3
4
5
6
7
8
9
10
from selenium import webdriver
cd = '/usr/local/bin/chromedriver'
driver = webdriver.Chrome(cd)
driver.get('https://www.audit-it.ru/my/login.php?login=yes&back_url=%2Fbuh_otchet%2F7736050003_pao-gazprom%3Finn%3D7736050003')
driver.find_element_by_id('USER_LOGIN').send_keys('Samatas')
driver.find_element_by_id('USER_PASSWORD').send_keys('testtest123')
driver.find_element_by_id('submit').click()
trs = driver.find_elements_by_id('calcRow')
for tr in trs:
    print([x.text for x in tr.find_elements_by_tag_name('td')])
Code
1
2
3
4
5
6
7
8
9
['Нематериальные активы', '1110', '13 318 662', '14 744 114', '17 102 648', '19 329 708', '20 095 198', '14 943 622', '11 928 912', '7 659 649', '277 132', '523 393', '371 494']
['Результаты исследований и разработок', '1120', '3 567 625', '2 985 739', '3 076 422', '2 862 397', '1 906 673', '2 592 483', '3 485 123', '3 466 656', '2 155 015', '1 957 582', '3 079 812']
['Нематериальные поисковые активы', '1130', '112 405 812', '130 776 537', '118 651 254', '118 119 725', '118 272 580', '118 447 844', '111 637 226', '112 010 828', '78 174 655', '42 764 714', '40 612 661']
['Материальные поисковые активы', '1140', '19 429 714', '52 045 575', '53 189 454', '71 725 085', '52 878 487', '51 031 638', '41 453 750', '31 147 477', '14 474 505', '32 784 530', '17 382 693']
['Основные средства', '1150', '9 363 075 355', '8 002 629 050', '7 998 232 551', '7 864 189 945', '7 824 129 524', '7 882 970 562', '6 853 878 774', '6 722 378 077', '5 718 189 804', '5 559 595 966', '4 808 400 368']
['Финансовые вложения', '1170', '4 439 221 232', '3 295 369 477', '4 047 061 648', '3 669 400 994', '2 898 014 512', '2 627 861 799', '2 190 246 138', '2 012 614 153', '2 000 854 436', '1 769 588 382', '1 717 983 114']
...
['Величина влияния изменений курса иностранной валюты по отношению к рублю', '4490', '(11 099 194)', '37 411 420', '(33 465 716)', '41 153 336', '(3 720 298)', '(88 058 273)', '44 902 145', '63 372 671', '12 465 430', '(6 436 049)']
['Чистые активы', '3600', '13 559 936 137', '10 216 921 602', '11 011 505 258', '10 674 755 054', '10 332 218 461', '10 414 000 247', '9 322 338 840', '9 089 213 120', '8 369 165 460', '7 884 133 579', '7 539 089 895']
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
04.05.2022, 01:21
Помогаю со студенческими работами здесь

Как передать параметры в HTML-страничку?
См. сабж. Если бы я вызывал эту страничку через window.showModalDialog, то всё понятно: в window_onload надо было бы анализировать...

Как отобразить html страничку из базы?
Есть html код как строка в базе данных. Как ее отобразить в delphi приложении? Может компонента какая волшебная есть или еще как?

Как запустить html страничку из Delphi?
Всем привет! Пишу програмку, к которой хочу подцепить справку &quot;help.html&quot; Прошу помощи, т.к. ни разу этого не делала. Нужно, чтобы...

Как вставить html страничку в MasterPage?
Переделывать ее в aspx? Или напрямую как-то можно?

Как безболезненно отпарсить html страничку?
Надо передрать допустим погоду или валюту с другого ресурса. Как бы это сделать без особого гемора? (Допустим html ку мы получили)


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
12
Ответ Создать тему
Новые блоги и статьи
Первый деплой
lagorue 16.01.2026
Не спеша развернул своё 1ое приложение в kubernetes. А дальше мне интересно создать 1фронтэнд приложения и 2 бэкэнд приложения развернуть 2 деплоя в кубере получится 2 сервиса и что-бы они. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит токи на L и напряжения на C в установ. режимах до и. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Изучаю kubernetes
lagorue 13.01.2026
А пригодятся-ли мне знания kubernetes в России?
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru