Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.63/64: Рейтинг темы: голосов - 64, средняя оценка - 4.63
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38

Зайти в сессию с requests и продолжить парсинг уже с Selenium

16.11.2020, 09:45. Показов 13931. Ответов 18

Студворк — интернет-сервис помощи студентам
Добрый день, совсем запуталась с решением задачи:

необходимо скачать картинки с нескольких страниц в одном разделе сайта (validate).

На просторах интернета я нашла решение для скачивания и сохранения картинок с другого раздела сайта (classes) - всё хорошо работает. Вхожу с requests, далее обрабатываю с soup, поиск по тэгу img.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
import requests
from lxml import html
import urllib
from bs4 import BeautifulSoup
import io
 
USERNAME = "<USERNAME>"
PASSWORD = "<PASSWORD>"
 
LOGIN_URL = "https://*******.com/site/login"
IR_URL ="https:*************com"
BASE_URL = "https://*************.com/klass?page="
 
parsed_pages=[]
 
def main():
    s = requests.session()
 
    # Get login csrf token
    r = s.get(LOGIN_URL)
    tree = html.fromstring(r.text)
    authenticity_token = list(set(tree.xpath("//input[@name='_csrf-markup']/@value")))[0]
 
    # Create payload
    payload = {
        "LoginForm[name]": "********", 
        "LoginForm[password]": "******", 
        "_csrf-markup": authenticity_token
    }
 
    # Perform login
    r = s.post(LOGIN_URL, data = payload, headers = dict(referer = LOGIN_URL))
    
    print(r.status_code)
    
    # Scrape url
 
    i = list(range(1,2))
 
    for item in i:
        URL = BASE_URL + str(item) + "&per-page=50"
        r = s.get(URL, headers = dict(referer = URL)).content
        soup = BeautifulSoup(r, 'lxml')
 
        table = soup.find("table", attrs={'table table-bordered'})
 
        imgs= table.findAll('img')
        img_links = []
        path = r"C:\*********\class"
 
        for img in imgs:
            print("page:" + str(item), "image:" + img.get('src'))
            img_links.append(img.get('src'))
 
        for img_link in img_links:
            f = io.open('parsed_data.html', 'a', encoding='utf8')
            #write to html file
            f.write("<a href='"+ IR_URL + str(img_link)+"'></a>")
            f.close()
            #save to folder
            
            urllib.request.urlretrieve(IR_URL + str(img_link), path + str(img_link)[str(img_link).rfind("/"):])
 
if __name__ == '__main__':
    main()

Но это не сработало с другим разделом сайта, где идет динамическая загрузка страницы, у меня не получается сохранить данные по входу в сессию, при попытке перейти на этот раздел, в коде страницы я вижу только код по вводу логина (стартовая страница).
Я пробовала зайти с selenium_requests, чтобы дальше обрабатывать с selenium, но это не вышло. Так же думала как-то открыть динамическую страницу в данной сессии, но решения для этого не нашла.

Это то, что я пробовала:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
login_link = "https://*********.com/site/login"
    link = "https://***********.com/validate?page="
 
    options = webdriver.FirefoxOptions()
    options.add_argument("--headless")
    driver = Firefox(options = options)
 
    try:
        response = driver.request('POST', login_link, data={
        #"_csrf-markup": "erEQFG7wJ6l9K9AHhbg_mLHT1aASSO_XzoY9DPPJgSogxChmJ7l1-h5Dvmb2_hLP3J74ynE62YGayV5LuKfHaA==",
        "LoginForm[name]": "**********",
        "LoginForm[password]": "*********",
        "LoginForm[rememberMe]": "0",
        "login-button": ""
    })
    except TimeoutException as e:
        pass
    time.sleep(2)
    print(response)
Python
1
2
3
4
5
6
7
8
9
10
11
driver.get (login_link)
    driver.find_element_by_id("loginform-name").send_keys("*****")
    driver.find_element_by_id ("loginform-password").send_keys("******")
    driver.find_element_by_name("_csrf-markup").setVal
    ('value', "L2b-HHE79HmWXtsTJlK5i7k8Pr9_oAu-EWDqj0lkDcMcNr1zGhaATKMNgmNkCIra7lNu_gWQPtZ-K5rOKyJGpA==")
    driver.find_element_by_name("login-button").click()
 
    driver.get(link)
    time.sleep(5)
    htmlSource = driver.page_source
    print(htmlSource)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
16.11.2020, 09:45
Ответы с готовыми решениями:

Python Selenium/Requests
Мне нужно перебрать все эти матчи с помощью Питона. Как мне сделать? Матчи каждый раз разные, я не хочу под каждый матч копировать xpath....

Почему requests и selenium не загружают внутренности iframe ?
Добрый день! Делаю обычный скрапинг сайта, подключаюсь как обычно (код уже работает на десятках сайтов). То, что внутри iframe, BS4...

Как продолжить действия с той же вкладкой Selenium?
Всем привет В чем суть: 1. Запускаю селен стандартно через WebDriver, делаю нужные действия 2. заношу спарсенную информацию в базу...

18
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
16.11.2020, 09:56
так используй обычный селениум -заходи на логин страницу, вводи поля и так далее, без реквестов и соуп. Если уж поднимать весь браузер то тогда запросы и парсер не нужны, селениум сам все умеет.

Добавлено через 2 минуты
Цитата Сообщение от Eliy Посмотреть сообщение
driver.find_element_by_name("_csrf-markup").setVal
    ('value', "L2b-HHE79HmWXtsTJlK5i7k8Pr9_oAu-EWDqj0lkDcMcNr1zGhaATKMNgmNkCIra7lNu_gWQ PtZ-K5rOKyJGpA==")
это зачем?

после клика авторизации дождись перехода на страницу, чтобы убедиться что авторизовалось, только потом переходи на нужный линк
1
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
16.11.2020, 09:57  [ТС]
у меня тоже не вышло, я думала, Что это из-за того, что в форму ещё передается hidden "_csrf-markup"
я не смогла это никак в Selenium передать, а так он не заходил, насколько уже помню(

Python
1
2
3
4
5
6
7
8
    driver.get (login_link)
    driver.find_element_by_id("loginform-name").send_keys("elina.duchinskaya")
    driver.find_element_by_id ("loginform-password").send_keys("8KGGpg14")
    
???? driver.find_element_by_name("_csrf-markup").send_keys
    ('value', "L2b-HHE79HmWXtsTJlK5i7k8Pr9_oAu-EWDqj0lkDcMcNr1zGhaATKMNgmNkCIra7lNu_gWQPtZ-K5rOKyJGpA==")???
 
    driver.find_element_by_name("login-button").click()
сейчас попробую опять без этого сертификата.. дождаться..
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
16.11.2020, 09:59
Цитата Сообщение от Eliy Посмотреть сообщение
Что это из-за того, что в форму ещё передается hidden "_csrf-markup"
тебе как юзеру в браузере нужно что-то вводить кроме логина и пароля? если нет, то и не мудри
0
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
19.11.2020, 07:20  [ТС]
пока не выходит - вышло единожды!.. и я обрадовалась увидев знакомые кучу img, но когда я решила обработать этот код и доставать картинки, всё сломалось, хотя я не меняла ничего..
что я понимаю из кода странички, что вход почему-то не осуществлен - это моя догадка(

я пыталась так же нажать на элемент на странице с Селениум (в комментах видны куски кода) - не выходит тоже)

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
import requests
from lxml import html
import urllib
from bs4 import BeautifulSoup
import io
from selenium import webdriver
import time
from seleniumrequests import Firefox
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
 
 
USERNAME = "<USERNAME>"
PASSWORD = "<PASSWORD>"
 
#driver = webdriver.PhantomJS()
options = webdriver.FirefoxOptions()
options.add_argument('--headless')
driver = webdriver.Firefox(options=options)
 
 
login_link = "https://*****************.com/site/login"
IR_link ="https://************.com"
base_link = "https://***************.com/validate?klass_id=5e7dc0691c007-3006&lots_id&size_id&confirm=&page=1&proposal=false&limit=0&klass_search="
 
def main():
   
    driver.get (login_link)
    try:
        element_present = EC.presence_of_element_located((By.NAME, 'login-button'))
        WebDriverWait(driver, 10).until(element_present)
    except TimeoutException:
        print("Timed out waiting for page to load")
 
    driver.find_element_by_id("loginform-name").send_keys("*************")
    driver.find_element_by_id ("loginform-password").send_keys("*******")
    
    driver.find_element_by_name("login-button").click()
 
    print(driver.session_id)
    #WebDriverWait(browser, 20).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "section#header header navbar navbar-default navbar-fixed-top[href='//validate']"))).click()
    #WebDriverWait(driver, 20).until(EC.element_to_be_clickable((By.XPATH, "/html/body/div[3]/div[2]/div/div[1]/ul/li[16]/a"))).click()
   
    driver.get (base_link)
    WebDriverWait(driver, 50) #.until(element_present)
    print(driver.page_source)
    html_source = driver.page_source
    data = html_source.encode('utf-8')
    print(data)
 
    driver.quit()
 
 
if __name__ == '__main__':
    main()
Добавлено через 6 минут

что я вижу в итоге:


HTML5
1
2
[CODE]</body></html>
b'<html lang="ru-RU"><head>\n    <title></title>\n\n    <meta charset="UTF-8">\n    <meta name="viewport" content="width=device-width, initial-scale=1">\n    <link href="https://fonts.googleapis.com/css?family=Roboto:100,100italic,300,300italic,400,400italic,500,500italic,700,700italic,900,900italic" rel="stylesheet" type="text/css">\n    <link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet">\n    <meta name="csrf-param" content="_csrf-markup">\n<meta name="csrf-token" content="cEBED0qBe81fDoCGj7CSfIeJHf_UvirB6SEcyGyBkr0pLw5CJKxJvit81-rO0vAVxsdMr5LSf7uvZkSvXNTCiQ==">\n    <link href="/color-admin/plugins/jquery-ui/themes/base/minified/jquery-ui.min.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/bootstrap/css/bootstrap.min.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/font-awesome/css/font-awesome.min.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/css/animate.min.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/css/style.min.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/css/style-responsive.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/css/theme/default.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/jquery-jvectormap/jquery-jvectormap-1.2.2.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/bootstrap-datepicker/css/datepicker.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/bootstrap-datepicker/css/datepicker3.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/gritter/css/jquery.gritter.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/flag-icon/css/flag-icon.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/select2/dist/css/select2.min.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/bootstrap-select/bootstrap-select.min.css?v=1605251424" rel="stylesheet"><style type="text/css">.jqstooltip { position: absolute;left: 0px;top: 0px;visibility: hidden;background: rgb(0, 0, 0) transparent;background-color: rgba(0,0,0,0.6);filter:progid:DXImageTransform.Microsoft.gradient(startColorstr=#99000000, endColorstr=#99000000);-ms-filter: "progid:DXImageTransform.Microsoft.gradient(startColorstr=#99000000, endColorstr=#99000000)";color: white;font: 10px arial, san serif;text-align: left;white-space: nowrap;padding: 5px;border: 1px solid white;z-index: 10000;}.jqsfield { color: white;font: 10px arial, san serif;text-align: left;}</style></head>\n<body class="pace-top pace-running"><div class="pace pace-active"><div class="pace-progress" style="width: 10%;" data-progress-text="10%" data-progress="10">\n  <div class="pace-progress-inner"></div>\n</div>\n<div class="pace-activity"></div></div>\n\n<!-- begin #page-loader -->\n<div id="page-loader" class="hide">\n    <div class="material-loader">\n        <svg class="circular" viewBox="25 25 50 50">\n            <circle class="path" cx="50" cy="50" r="20" fill="none" stroke-width="2" stroke-miterlimit="10"></circle>\n        </svg>\n        <div class="message">Loading...</div>\n    </div>\n</div>\n<!-- end #page-loader -->\n\n<!-- begin #page-container -->\n<div id="page-container" class="fade in">\n    <!-- begin login -->\n    <div class="login bg-grey-800 animated fadeInDown">\n        <!-- begin brand -->\n        <div class="login-header">\n            <div class="brand text-inverse">\n                <span class="logo"></span>\n                Tools Intelligence Retail\n            </div>\n\n        </div>\n        <!-- end brand -->\n        <div class="login-content">\n            <form id="login-form" action="/site/login" method="post">\n<input type="hidden" name="_csrf-markup" value="cEBED0qBe81fDoCGj7CSfIeJHf_UvirB6SEcyGyBkr0pLw5CJKxJvit81-rO0vAVxsdMr5LSf7uvZkSvXNTCiQ==">\n            <div class="form-group field-loginform-name required">\n<label class="control-label" for="loginform-name">\xd0\x9b\xd0\xbe\xd0\xb3\xd0\xb8\xd0\xbd</label>\n<input type="text" id="loginform-name" class="form-control" name="LoginForm[name]" autofocus="" aria-required="true">\n\n<p class="help-block help-block-error"></p>\n</div>\n            <div class="form-group field-loginform-password required">\n<label class="control-label" for="loginform-password">\xd0\x9f\xd0\xb0\xd1\x80\xd0\xbe\xd0\xbb\xd1\x8c</label>\n<input type="password" id="loginform-password" class="form-control" name="LoginForm[password]" aria-required="true">\n\n<p class="help-block help-block-error"></p>\n</div>\n            <div class="form-group field-loginform-rememberme">\n<div class="checkbox">\n<label for="loginform-rememberme">\n<input type="hidden" name="LoginForm[rememberMe]" value="0"><input type="checkbox" id="loginform-rememberme" name="LoginForm[rememberMe]" value="1">\n\xd0\x97\xd0\xb0\xd0\xbf\xd0\xbe\xd0\xbc\xd0\xbd\xd0\xb8\xd1\x82\xd1\x8c \xd0\xbc\xd0\xb5\xd0\xbd\xd1\x8f\n</label>\n<p class="help-block help-block-error"></p>\n\n</div>\n</div>\n            <div class="form-group">\n                <button type="submit" class="btn btn-success btn-block btn-lg" name="login-button">Login</button>            </div>\n\n            </form>        </div>\n    </div>\n    <!-- end login -->\n\n</div>\n<!-- end page container -->\n\n<script src="/assets/5ff75d3c/vue.js?v=1605252121"></script>\n<script src="/color-admin/plugins/pace/pace.min.js?v=1605251424"></script>\n<script src="/color-admin/js/jquery.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/jquery/jquery-migrate-1.1.0.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/jquery-ui/ui/minified/jquery-ui.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/bootstrap/js/bootstrap.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/slimscroll/jquery.slimscroll.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/jquery-cookie/jquery.cookie.js?v=1605251424"></script>\n<script src="/color-admin/plugins/gritter/js/jquery.gritter.js?v=1605251424"></script>\n<script src="/color-admin/plugins/bootstrap-select/bootstrap-select.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/select2/dist/js/select2.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/sparkline/jquery.sparkline.js?v=1605251424"></script>\n<script src="/color-admin/plugins/jquery-jvectormap/jquery-jvectormap-1.2.2.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/jquery-jvectormap/jquery-jvectormap-world-mill-en.js?v=1605251424"></script>\n<script src="/color-admin/plugins/bootstrap-datepicker/js/bootstrap-datepicker.js?v=1605251424"></script>\n<script src="/color-admin/js/dashboard.min.js?v=1605251424"></script>\n<script src="/color-admin/yii/yii.gridView.js?v=1605251424"></script>\n<script src="/color-admin/yii/yii.activeForm.js?v=1605251424"></script>\n<script src="/color-admin/js/apps.min.js?v=1605251424"></script>\n<script src="/js/main.js?v=1605251474"></script>\n<script src="/custom_js/lazy_load_image.js?v=1605251424"></script>\n<script src="/assets/90ad03c/jquery.js?v=1605252121"></script>\n<script src="/assets/a90ae46d/yii.js?v=1605252121"></script>\n<script src="/assets/a90ae46d/yii.validation.js?v=1605252121"></script>\n<script src="/assets/a90ae46d/yii.activeForm.js?v=1605252121"></script>\n<script>jQuery(function ($) {\njQuery(\'#login-form\').yiiActiveForm([{"id":"loginform-name","name":"name","container":".field-loginform-name","input":"#loginform-name","error":".help-block.help-block-error","validate":function (attribute, value, messages, deferred, $form) {yii.validation.required(value, messages, {"message":"\xd0\x9d\xd0\xb5\xd0\xbe\xd0\xb1\xd1\x85\xd0\xbe\xd0\xb4\xd0\xb8\xd0\xbc\xd0\xbe \xd0\xb7\xd0\xb0\xd0\xbf\xd0\xbe\xd0\xbb\xd0\xbd\xd0\xb8\xd1\x82\xd1\x8c \xc2\xab\xd0\x9b\xd0\xbe\xd0\xb3\xd0\xb8\xd0\xbd\xc2\xbb."});}},{"id":"loginform-password","name":"password","container":".field-loginform-password","input":"#loginform-password","error":".help-block.help-block-error","validate":function (attribute, value, messages, deferred, $form) {yii.validation.required(value, messages, {"message":"\xd0\x9d\xd0\xb5\xd0\xbe\xd0\xb1\xd1\x85\xd0\xbe\xd0\xb4\xd0\xb8\xd0\xbc\xd0\xbe \xd0\xb7\xd0\xb0\xd0\xbf\xd0\xbe\xd0\xbb\xd0\xbd\xd0\xb8\xd1\x82\xd1\x8c \xc2\xab\xd0\x9f\xd0\xb0\xd1\x80\xd0\xbe\xd0\xbb\xd1\x8c\xc2\xbb."});}},{"id":"loginform-rememberme","name":"rememberMe","container":".field-loginform-rememberme","input":"#loginform-rememberme","error":".help-block.help-block-error","validate":function (attribute, value, messages, deferred, $form) {yii.validation.boolean(value, messages, {"trueValue":"1","falseValue":"0","message":"\xd0\x97\xd0\xbd\xd0\xb0\xd1\x87\xd0\xb5\xd0\xbd\xd0\xb8\xd0\xb5 \xc2\xab\xd0\x97\xd0\xb0\xd0\xbf\xd0\xbe\xd0\xbc\xd0\xbd\xd0\xb8\xd1\x82\xd1\x8c \xd0\xbc\xd0\xb5\xd0\xbd\xd1\x8f\xc2\xbb \xd0\xb4\xd0\xbe\xd0\xbb\xd0\xb6\xd0\xbd\xd0\xbe \xd0\xb1\xd1\x8b\xd1\x82\xd1\x8c \xd1\x80\xd0\xb0\xd0\xb2\xd0\xbd\xd0\xbe \xc2\xab1\xc2\xbb \xd0\xb8\xd0\xbb\xd0\xb8 \xc2\xab0\xc2\xbb.","skipOnEmpty":1});}}], []);\n});</script>\n<script>\n    $(document).ready(function() {\n        App.init();\n    });\n</script>\n\n\n\n</body></html>'[/CODE]
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
19.11.2020, 07:43
Цитата Сообщение от Eliy Посмотреть сообщение
что я вижу в итоге
так блин выключи ты хедлесс и посмотри глазами что там происходит в браузере!
1
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
19.11.2020, 09:42  [ТС]
да, он логин вводит и пароль, а потом его опять выбрасывает на страницу логин, как будто и не было логина.. может после клика подождать попросить.. (ожидание добавила, всё равно, в форму всё введено, но не логинится (может всё-таки в этом markup дело( в форме - полезная нагрузка запроса?
HTML5
1
_csrf-markup=-HZ3IfyhZ6xIRSOPZNmbpjWw4dFqQAex0A5pNSfcRyWJTjhiqdQD5AAaQuZd7cz_b_u5mTN0NvyHdlxTQY4DVA%3D%3D&LoginForm%5Bname%5D=elina.duchinskaya&LoginForm%5Bpassword%5D=8KGGpg14&LoginForm%5BrememberMe%5D=0&login-button=
и ещё может кнопку не так нажимаю(

HTML5
1
<button type="submit" class="btn btn-success btn-block btn-lg" name="login-button">Login</button>
Добавлено через 4 минуты
Python
1
driver.find_element_by_xpath("/html/body/div[3]/div/div[2]/form/div[4]/button").click()
не помогло(
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
19.11.2020, 10:26
Цитата Сообщение от Eliy Посмотреть сообщение
не помогло(
ну без сайта логина и пароля помочь не могу. Что-то не так делаешь, читай доку селениума
1
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
19.12.2020, 11:26
Python
1
2
3
4
5
6
7
8
9
>>> url='https://iqtools-grocery-prod.intrtl.com/site/login'
>>> from selenium import webdriver
>>> d = webdriver.Chrome()
>>> d.get(url)
>>> user = '*****'
>>> password='*****'
>>> d.find_element_by_id('loginform-name').send_keys(user)
>>> d.find_element_by_id('loginform-password').send_keys(password)
>>> d.find_element_by_name('login-button').click()
все работает
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
19.12.2020, 15:45
Цитата Сообщение от Eliy Посмотреть сообщение
from bs4 import BeautifulSoup
Зачем использовать bs4, когда есть lxml?
lxml позволяет работать напрямую с формами.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
    # отправляем первичный запрос на главную страницу, чтобы получить сессионные куки
    session = requests.Session()
    # шаг первый
    resp = session.get(host,headers=headers)
    html = resp.text
    root = lxml.html.fromstring(html) #  получаем разобранное дерево элементов
    title = root.xpath('//title')[0].text
    
    print(title)
    time.sleep(2)
    # шаг второй
    resp = session.get(login_url,headers=headers)
    html = resp.text
    root = lxml.html.fromstring(html) #  получаем разобранное дерево элементов
    title = root.xpath('//title')[0].text # находим заголовок; по идее он есть практически у всех страничек
    print(title)  # смотрим заголовок страницы
    # проверка что это нужная нам страничка логина; можно не делать и нужно понимать, что заголовок странички логина  может быть другим
    if 'Login' in title:    
        form = root.forms[0]  # берем самую первую форму - то, что брать нужно именно ее - нужно убеждаться эмпирическим путем, заглянув в исходный код страницы, так как нужная форма может и не быть первой
        print(form.form_values())
        # заполняем поля; скрытые поля будут отосланы автоматически
        form.fields['username'] = login      # имена полей узнаем из исходного кода страницы; у вас они могут быть дргуими
        form.fields['password'] = password
        time.sleep(2)
        # шаг третий
        # в form.action  должен быть относительный url, иначе host не нужен.
        resp = session.post("{}{}".format(host,form.action), data=form.form_values())
        ... дальше проверяем что это страничка на которую нас должны перенаправить после удачного логина
0
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
19.12.2020, 16:02  [ТС]
а lxml поможет с динамическими страницами?

@Welemir1 помог с авторизацией на сайте - я теперь поняла, почему меня выкидывало (после get(логин_страница) я вызывала get(ревизия_страница) и меня выкидывало вновь)
Пока не могу это решить, я уже даже стала основной страницей делать не логин страницу, а нужный раздел сайта, и я туда захожу, НО далее надо выбрать значение из выпадающего списка, чтобы отсортировать картинки на сайте (на текущий момент открыть напрямую страницу с нужным class_id не удалось)..

я думаю как вариант попробовать остаться в сессии селениум, пока не понимаю как)

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
def main():
    iqname = str(input("Enter iqtools name: "))
    #classid = str(input("Enter class id: "))
    name = str(input("Enter name: "))
    password = str(input("Enter pass: "))
 
    #iter_link = f"https://iqtools-{iqname}.intrtl.com/validate?klass_id={classid}&lots_id&size_id&confirm=&page=1&proposal=false&limit=0&klass_search="
    base_link = f"https://iqtools-{iqname}.intrtl.com/validate?confirm=&page=1&proposal=false&limit=0"
 
    driver = webdriver.Chrome(executable_path=r'C:\Users\elili\Documents\Python\chromedriver')
    driver.get (base_link)
    try:
        element_present = EC.presence_of_element_located((By.NAME, 'login-button'))
        WebDriverWait(driver, 10).until(element_present)
    except TimeoutException:
        print("Timed out waiting for page to load")
 
    driver.find_element_by_id("loginform-name").send_keys(name)
    driver.find_element_by_id ("loginform-password").send_keys(password)
    driver.find_element_by_name("login-button").click()
    
    WebDriverWait(driver, 100)
 
    print(driver.page_source)
 
    i = list(range(1,5))
 
    images = driver.find_elements_by_tag_name('img')
        
    for image in images:
        print(image.get_attribute('src'))
    
    while(True):
        pass
 
    #driver.quit()
 
if __name__ == '__main__':
 
    main()
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
19.12.2020, 16:09
Цитата Сообщение от Eliy Посмотреть сообщение
а lxml поможет с динамическими страницами?
Тебе логин нужен или что? Страничка логина статическая.
А все прочее можно получать через AJAX запросы.
1
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
19.12.2020, 16:18  [ТС]
Спасибо! Почитаю про них!
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
19.12.2020, 16:31
Цитата Сообщение от Eliy Посмотреть сообщение
Почитаю про них!
Про них нечего читать. Разве что один абзац в вики.
AJAX запросы нужно уметь видеть в браузерных тулзах для разработчика и генерировать точно такие же.
Многие динамические странички это просто AJAX запросы к серверу, который присылает json-чик с данными.
Хотя, конечно, если страничка вся построена чисто на браузерном javascript, то с этим уже без эмуляции браузера никак не справиться.
0
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
19.12.2020, 17:29  [ТС]
думаю, что да, JS

прилагаю принскрины.

дело в том, что у меня открывается нужная страница после логина (то есть я сразу открываю её, на логин перенаправляюсь автоматически, логинюсь, и она открывается)
base_link = f"https://iqtools-{iqname}.intrtl.com/validate?confirm=&page=1&proposal=false& limit=0"

, но со страницей, направляющей меня сразу на список картинок класса, так не получается
iter_link = f"https://iqtools-{iqname}.intrtl.com/validate?klass_id={classid}&lots_id&size _id&confirm=&page=1&proposal=false&limit =0&klass_search="
Миниатюры
Зайти в сессию с requests и продолжить парсинг уже с Selenium   Зайти в сессию с requests и продолжить парсинг уже с Selenium  
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
19.12.2020, 18:48
Нужно смотреть не html код, а запросы на вкладке Network и долго их анализировать.
1
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
19.12.2020, 19:13  [ТС]
ясно.. да, уже изучала там пост запросы..
при запуске хрома из кода я теперь обратила внимание, что есть источники, чего нет в хроме просто у меня открываемом..
в принципе - это то, что мне и нужно, что я раньше находила на сайтах, а сейчас перестала
Миниатюры
Зайти в сессию с requests и продолжить парсинг уже с Selenium  
0
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
22.12.2020, 11:23  [ТС]
не получается продолжить с post запросом((( на этом моменте новая страница не загржуается (iter_url), я остаюсь на старой (base_url)
с чем это может быть связано?((
вроде я даже нашла как запустить ajax script, чтобы он проработал..
при этом в post запросах, там три запроса - неужели такое может быть, что надо три раза запрос посылать? там примерно одинаковые атрибуты..

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
import requests
from lxml import html
import urllib
from bs4 import BeautifulSoup
import io
from seleniumwire import webdriver
import time
from seleniumrequests import Firefox
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.proxy import Proxy, ProxyType
import json
 
#driver = webdriver.PhantomJS()
#options = webdriver.FirefoxOptions()
#options.add_argument('--headless')
#driver = webdriver.Firefox(options=options)
#profile = webdriver.FirefoxProfile()
#profile.accept_untrusted_certs = True
 
#driver = webdriver.Firefox(firefox_profile=profile)
def ajax_complete(driver):
    try:
        return 0 == driver.execute_script("return jQuery.active")
    except WebDriverException:
        return not driver.execute_script("return jQuery && jQuery.active")
 
def main():
    iqname = str(input("Enter iqtools name: "))
    classid = str(input("Enter class id: "))
    name = str(input("Enter name: "))
    password = str(input("Enter pass: "))
 
    iter_url = f"https://iqtools-{iqname}.intrtl.com/validate?klass_id={classid}&lots_id&size_id&confirm=&page=1&proposal=false&limit=0&klass_search="
    base_url = f"https://iqtools-{iqname}.intrtl.com/validate?confirm=&page=1&proposal=false&limit=0"
 
    #profile = webdriver.FirefoxProfile()
    #profile.accept_untrusted_certs = True
    #options = webdriver.FirefoxOptions()
    #options.add_argument('--headless')
 
    
 
    driver = Firefox(executable_path=r'C:\Users\elili\Documents\Python\geckodriver')
    #driver = webdriver.Chrome(executable_path=r'C:\Users\elili\Documents\Python\chromedriver')
    driver.get (base_url)
    try:
        element_present = EC.presence_of_element_located((By.NAME, 'login-button'))
        WebDriverWait(driver, 10).until(element_present)
    except TimeoutException:
        print("Timed out waiting for page to load")
 
    driver.find_element_by_id("loginform-name").send_keys(name)
    driver.find_element_by_id ("loginform-password").send_keys(password)
    driver.find_element_by_name("login-button").click()
    
    try:
        element_present = EC.presence_of_element_located((By.CLASS_NAME, 'klass-wrapper'))
        WebDriverWait(driver, 10).until(element_present)
    except TimeoutException:
        print("Timed out waiting for page to load")
 
    # Create payload
    payload = {
        "confirm": "",
        "klass_id": classid,
        "klass_search": "",
        "limit": "0",
        "lots_id": "null",
        "page": 1,
        "proposal": "false",
        "size_id": "null"
    }
 
    headers = {
        'content-type': 'application/json',
        'referer': iter_url
    }
 
    driver.request('POST', iter_url, data=json.dumps(payload), headers = headers)
    
    WebDriverWait(driver, 20).until(
             ajax_complete,  "Timeout waiting for page to load")
 
    
    classes = driver.find_elements_by_class_name('klass-wrapper')
 
    for clas in classes:
        image = clas.find_element_by_tag_name('img')
        print(image.get_attribute('src'))
        markup = clas.find_element_by_tag_name('a')
        print(markup.get_attribute('href'))
 
    
    #while(True):
    #    pass
 
    #driver.quit()
 
if __name__ == '__main__':
 
    main()
Миниатюры
Зайти в сессию с requests и продолжить парсинг уже с Selenium  
0
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
23.12.2020, 12:31  [ТС]
ура, вышло вот так, можно оказывается просто get с нужным адресом прописать, хотя до этого так не срабатывало)
плюс использовала seleniumrequests, чтобы post запрос отправить
и ещё чей-то код по ожиданию загрузки Ajax скрипта

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
import requests
from lxml import html
import urllib
from bs4 import BeautifulSoup
import io
import os
from seleniumwire import webdriver
import time
from seleniumrequests import Firefox
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.proxy import Proxy, ProxyType
import json
import pandas as pd
 
#driver = webdriver.PhantomJS()
#options = webdriver.FirefoxOptions()
#options.add_argument('--headless')
#driver = webdriver.Firefox(options=options)
#profile = webdriver.FirefoxProfile()
#profile.accept_untrusted_certs = True
 
#driver = webdriver.Firefox(firefox_profile=profile)
def ajax_complete(driver):
    try:
        return 0 == driver.execute_script("return jQuery.active")
    except WebDriverException:
        return not driver.execute_script("return jQuery && jQuery.active")
 
def main():
    iqname = str(input("Enter iqtools name: "))
    classid = str(input("Enter class id: "))
    name = str(input("Enter name: "))
    password = str(input("Enter pass: "))
    page = int(1)
 
    iter_url = f"https://iqtools-{iqname}.intrtl.com/validate?klass_id={classid}&lots_id&size_id&confirm=&page={page}&proposal=false&limit=0&klass_search="
    base_url = f"https://iqtools-{iqname}.intrtl.com/validate?confirm=&page=1&proposal=false&limit=0"
 
    #profile = webdriver.FirefoxProfile()
    #profile.accept_untrusted_certs = True
 
    options = webdriver.FirefoxOptions()
    #options = webdriver.ChromeOptions()
    #options.add_argument('--headless')
 
    driver = Firefox(executable_path=r'C:\Users\elili\Documents\Python\geckodriver', options = options)
    #driver = webdriver.Chrome(executable_path=r'C:\Users\elili\Documents\Python\chromedriver')
    driver.get(base_url)
    try:
        element_present = EC.presence_of_element_located((By.NAME, 'login-button'))
        WebDriverWait(driver, 10).until(element_present)
    except TimeoutException:
        print("Timed out waiting for page to load")
 
    driver.find_element_by_id("loginform-name").send_keys(name)
    driver.find_element_by_id ("loginform-password").send_keys(password)
    driver.find_element_by_name("login-button").click()
    
    try:
        element_present = EC.presence_of_element_located((By.CLASS_NAME, 'klass-wrapper'))
        WebDriverWait(driver, 30).until(element_present)
    except TimeoutException:
        print("Timed out waiting for page to load")
 
 
    driver.get(iter_url)
 
    times = list(range(1,25))
 
    payload = {
        "confirm": "",
        "klass_id": classid,
        "klass_search": "",
        "limit": "0",
        "lots_id": "null",
        "page": 1,
        "proposal": "false",
        "size_id": "null"
    }
 
    headers = {
        'content-type': 'application/json;charset=utf-8',
        'referer': iter_url
    }
 
    driver.request('POST', iter_url, data=json.dumps(payload), headers = headers)
    
    WebDriverWait(driver, 20).until(
        ajax_complete,  "Timeout waiting for page to load")
 
    pagination = driver.find_element_by_class_name('pagination')
    pages =[]
    pages = driver.find_elements_by_class_name('page-item')
    lastpage = pages[-1].find_element_by_tag_name('a').text
    print(lastpage)
 
 
    l = []
    path = os.getcwd()
 
    nums = list(range(40, int(lastpage)))
    for num in nums:
        page = num
        iter_url = f"https://iqtools-{iqname}.intrtl.com/validate?klass_id={classid}&lots_id&size_id&confirm=&page={page}&proposal=false&limit=0&klass_search="
        driver.get(iter_url)
        
        payload = {
            "confirm": "",
            "klass_id": classid,
            "klass_search": "",
            "limit": "0",
            "lots_id": "null",
            "page": 1,
            "proposal": "false",
            "size_id": "null"
        }
 
        headers = {
        'content-type': 'application/json;charset=utf-8',
        'referer': iter_url
        }
 
        driver.request('POST', iter_url, data=json.dumps(payload), headers = headers)
    
        WebDriverWait(driver, 20).until(
            ajax_complete,  "Timeout waiting for page to load")
        
        classes = driver.find_elements_by_class_name('klass-wrapper')
 
        for clas in classes:
            image = clas.find_element_by_tag_name('img')
            imageurl = image.get_attribute('src')
            image = str(imageurl)[str(imageurl).rfind('/'):str(imageurl).rfind("?")]
            urllib.request.urlretrieve(imageurl, path + str(imageurl)[str(imageurl).rfind('/'):str(imageurl).rfind("?")])
            markup = clas.find_element_by_tag_name('a')
            markupurl = markup.get_attribute('href')
            row = [image, markupurl]
            l.append(row)
 
    df = pd.DataFrame(l, columns=["image", "markupurl"])
 
    df.to_excel("validation.xlsx")
    #while(True):
    #    pass
 
    #driver.quit()
 
if __name__ == '__main__':
 
    main()
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
23.12.2020, 12:31
Помогаю со студенческими работами здесь

Python+selenium как продолжить цикл если не находится элемент
Есть цикл, который переходит из бд по ссылкам и ищет элементы. Бывает , что на странице нет этого элемента и цикл прекращается. Так вот...

Парсинг с использованием requests
Добрый день. Столкнулся со следующей проблемой. При попытке вытащить информацию с сайта отправлял post запрос. В качестве логина...

Парсинг JSON с использованием requests
Написать парсер данных, размещенных в json-формате с применением библиотеки requests ссылка: https://jsonplaceholder.typicode.com/posts ...

Парсинг динамического сайта библиотекой requests
Всем привет. Нужно спарсить названия всех треков в плейлисте в яндекс музыке. requests отдаёт только 100 записей. Насколько я понял, все...

Парсинг olx.ua Python+requests+bs4
Пытаясь сделать парсер мобильных телефонов на сайте olx.ua столкнулся с проблемой:при отправке ajax запроса мне выдает вместо корректного...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
19
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru