0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38

Зайти в сессию с requests и продолжить парсинг уже с Selenium

16.11.2020, 09:45. Показов 14177. Ответов 18

Студворк — интернет-сервис помощи студентам
Добрый день, совсем запуталась с решением задачи:

необходимо скачать картинки с нескольких страниц в одном разделе сайта (validate).

На просторах интернета я нашла решение для скачивания и сохранения картинок с другого раздела сайта (classes) - всё хорошо работает. Вхожу с requests, далее обрабатываю с soup, поиск по тэгу img.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
import requests
from lxml import html
import urllib
from bs4 import BeautifulSoup
import io
 
USERNAME = "<USERNAME>"
PASSWORD = "<PASSWORD>"
 
LOGIN_URL = "https://*******.com/site/login"
IR_URL ="https:*************com"
BASE_URL = "https://*************.com/klass?page="
 
parsed_pages=[]
 
def main():
    s = requests.session()
 
    # Get login csrf token
    r = s.get(LOGIN_URL)
    tree = html.fromstring(r.text)
    authenticity_token = list(set(tree.xpath("//input[@name='_csrf-markup']/@value")))[0]
 
    # Create payload
    payload = {
        "LoginForm[name]": "********", 
        "LoginForm[password]": "******", 
        "_csrf-markup": authenticity_token
    }
 
    # Perform login
    r = s.post(LOGIN_URL, data = payload, headers = dict(referer = LOGIN_URL))
    
    print(r.status_code)
    
    # Scrape url
 
    i = list(range(1,2))
 
    for item in i:
        URL = BASE_URL + str(item) + "&per-page=50"
        r = s.get(URL, headers = dict(referer = URL)).content
        soup = BeautifulSoup(r, 'lxml')
 
        table = soup.find("table", attrs={'table table-bordered'})
 
        imgs= table.findAll('img')
        img_links = []
        path = r"C:\*********\class"
 
        for img in imgs:
            print("page:" + str(item), "image:" + img.get('src'))
            img_links.append(img.get('src'))
 
        for img_link in img_links:
            f = io.open('parsed_data.html', 'a', encoding='utf8')
            #write to html file
            f.write("<a href='"+ IR_URL + str(img_link)+"'></a>")
            f.close()
            #save to folder
            
            urllib.request.urlretrieve(IR_URL + str(img_link), path + str(img_link)[str(img_link).rfind("/"):])
 
if __name__ == '__main__':
    main()

Но это не сработало с другим разделом сайта, где идет динамическая загрузка страницы, у меня не получается сохранить данные по входу в сессию, при попытке перейти на этот раздел, в коде страницы я вижу только код по вводу логина (стартовая страница).
Я пробовала зайти с selenium_requests, чтобы дальше обрабатывать с selenium, но это не вышло. Так же думала как-то открыть динамическую страницу в данной сессии, но решения для этого не нашла.

Это то, что я пробовала:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
login_link = "https://*********.com/site/login"
    link = "https://***********.com/validate?page="
 
    options = webdriver.FirefoxOptions()
    options.add_argument("--headless")
    driver = Firefox(options = options)
 
    try:
        response = driver.request('POST', login_link, data={
        #"_csrf-markup": "erEQFG7wJ6l9K9AHhbg_mLHT1aASSO_XzoY9DPPJgSogxChmJ7l1-h5Dvmb2_hLP3J74ynE62YGayV5LuKfHaA==",
        "LoginForm[name]": "**********",
        "LoginForm[password]": "*********",
        "LoginForm[rememberMe]": "0",
        "login-button": ""
    })
    except TimeoutException as e:
        pass
    time.sleep(2)
    print(response)
Python
1
2
3
4
5
6
7
8
9
10
11
driver.get (login_link)
    driver.find_element_by_id("loginform-name").send_keys("*****")
    driver.find_element_by_id ("loginform-password").send_keys("******")
    driver.find_element_by_name("_csrf-markup").setVal
    ('value', "L2b-HHE79HmWXtsTJlK5i7k8Pr9_oAu-EWDqj0lkDcMcNr1zGhaATKMNgmNkCIra7lNu_gWQPtZ-K5rOKyJGpA==")
    driver.find_element_by_name("login-button").click()
 
    driver.get(link)
    time.sleep(5)
    htmlSource = driver.page_source
    print(htmlSource)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
16.11.2020, 09:45
Ответы с готовыми решениями:

Python Selenium/Requests
Мне нужно перебрать все эти матчи с помощью Питона. Как мне сделать? Матчи каждый раз разные, я не хочу под каждый матч копировать xpath....

Почему requests и selenium не загружают внутренности iframe ?
Добрый день! Делаю обычный скрапинг сайта, подключаюсь как обычно (код уже работает на десятках сайтов). То, что внутри iframe, BS4...

Как продолжить действия с той же вкладкой Selenium?
Всем привет В чем суть: 1. Запускаю селен стандартно через WebDriver, делаю нужные действия 2. заношу спарсенную информацию в базу...

18
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,695
Записей в блоге: 29
16.11.2020, 09:56
так используй обычный селениум -заходи на логин страницу, вводи поля и так далее, без реквестов и соуп. Если уж поднимать весь браузер то тогда запросы и парсер не нужны, селениум сам все умеет.

Добавлено через 2 минуты
Цитата Сообщение от Eliy Посмотреть сообщение
driver.find_element_by_name("_csrf-markup").setVal
    ('value', "L2b-HHE79HmWXtsTJlK5i7k8Pr9_oAu-EWDqj0lkDcMcNr1zGhaATKMNgmNkCIra7lNu_gWQ PtZ-K5rOKyJGpA==")
это зачем?

после клика авторизации дождись перехода на страницу, чтобы убедиться что авторизовалось, только потом переходи на нужный линк
1
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
16.11.2020, 09:57  [ТС]
у меня тоже не вышло, я думала, Что это из-за того, что в форму ещё передается hidden "_csrf-markup"
я не смогла это никак в Selenium передать, а так он не заходил, насколько уже помню(

Python
1
2
3
4
5
6
7
8
    driver.get (login_link)
    driver.find_element_by_id("loginform-name").send_keys("elina.duchinskaya")
    driver.find_element_by_id ("loginform-password").send_keys("8KGGpg14")
    
???? driver.find_element_by_name("_csrf-markup").send_keys
    ('value', "L2b-HHE79HmWXtsTJlK5i7k8Pr9_oAu-EWDqj0lkDcMcNr1zGhaATKMNgmNkCIra7lNu_gWQPtZ-K5rOKyJGpA==")???
 
    driver.find_element_by_name("login-button").click()
сейчас попробую опять без этого сертификата.. дождаться..
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,695
Записей в блоге: 29
16.11.2020, 09:59
Цитата Сообщение от Eliy Посмотреть сообщение
Что это из-за того, что в форму ещё передается hidden "_csrf-markup"
тебе как юзеру в браузере нужно что-то вводить кроме логина и пароля? если нет, то и не мудри
0
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
19.11.2020, 07:20  [ТС]
пока не выходит - вышло единожды!.. и я обрадовалась увидев знакомые кучу img, но когда я решила обработать этот код и доставать картинки, всё сломалось, хотя я не меняла ничего..
что я понимаю из кода странички, что вход почему-то не осуществлен - это моя догадка(

я пыталась так же нажать на элемент на странице с Селениум (в комментах видны куски кода) - не выходит тоже)

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
import requests
from lxml import html
import urllib
from bs4 import BeautifulSoup
import io
from selenium import webdriver
import time
from seleniumrequests import Firefox
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
 
 
USERNAME = "<USERNAME>"
PASSWORD = "<PASSWORD>"
 
#driver = webdriver.PhantomJS()
options = webdriver.FirefoxOptions()
options.add_argument('--headless')
driver = webdriver.Firefox(options=options)
 
 
login_link = "https://*****************.com/site/login"
IR_link ="https://************.com"
base_link = "https://***************.com/validate?klass_id=5e7dc0691c007-3006&lots_id&size_id&confirm=&page=1&proposal=false&limit=0&klass_search="
 
def main():
   
    driver.get (login_link)
    try:
        element_present = EC.presence_of_element_located((By.NAME, 'login-button'))
        WebDriverWait(driver, 10).until(element_present)
    except TimeoutException:
        print("Timed out waiting for page to load")
 
    driver.find_element_by_id("loginform-name").send_keys("*************")
    driver.find_element_by_id ("loginform-password").send_keys("*******")
    
    driver.find_element_by_name("login-button").click()
 
    print(driver.session_id)
    #WebDriverWait(browser, 20).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "section#header header navbar navbar-default navbar-fixed-top[href='//validate']"))).click()
    #WebDriverWait(driver, 20).until(EC.element_to_be_clickable((By.XPATH, "/html/body/div[3]/div[2]/div/div[1]/ul/li[16]/a"))).click()
   
    driver.get (base_link)
    WebDriverWait(driver, 50) #.until(element_present)
    print(driver.page_source)
    html_source = driver.page_source
    data = html_source.encode('utf-8')
    print(data)
 
    driver.quit()
 
 
if __name__ == '__main__':
    main()
Добавлено через 6 минут

что я вижу в итоге:


HTML5
1
2
[CODE]</body></html>
b'<html lang="ru-RU"><head>\n    <title></title>\n\n    <meta charset="UTF-8">\n    <meta name="viewport" content="width=device-width, initial-scale=1">\n    <link href="https://fonts.googleapis.com/css?family=Roboto:100,100italic,300,300italic,400,400italic,500,500italic,700,700italic,900,900italic" rel="stylesheet" type="text/css">\n    <link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet">\n    <meta name="csrf-param" content="_csrf-markup">\n<meta name="csrf-token" content="cEBED0qBe81fDoCGj7CSfIeJHf_UvirB6SEcyGyBkr0pLw5CJKxJvit81-rO0vAVxsdMr5LSf7uvZkSvXNTCiQ==">\n    <link href="/color-admin/plugins/jquery-ui/themes/base/minified/jquery-ui.min.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/bootstrap/css/bootstrap.min.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/font-awesome/css/font-awesome.min.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/css/animate.min.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/css/style.min.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/css/style-responsive.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/css/theme/default.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/jquery-jvectormap/jquery-jvectormap-1.2.2.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/bootstrap-datepicker/css/datepicker.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/bootstrap-datepicker/css/datepicker3.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/gritter/css/jquery.gritter.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/flag-icon/css/flag-icon.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/select2/dist/css/select2.min.css?v=1605251424" rel="stylesheet">\n<link href="/color-admin/plugins/bootstrap-select/bootstrap-select.min.css?v=1605251424" rel="stylesheet"><style type="text/css">.jqstooltip { position: absolute;left: 0px;top: 0px;visibility: hidden;background: rgb(0, 0, 0) transparent;background-color: rgba(0,0,0,0.6);filter:progid:DXImageTransform.Microsoft.gradient(startColorstr=#99000000, endColorstr=#99000000);-ms-filter: "progid:DXImageTransform.Microsoft.gradient(startColorstr=#99000000, endColorstr=#99000000)";color: white;font: 10px arial, san serif;text-align: left;white-space: nowrap;padding: 5px;border: 1px solid white;z-index: 10000;}.jqsfield { color: white;font: 10px arial, san serif;text-align: left;}</style></head>\n<body class="pace-top pace-running"><div class="pace pace-active"><div class="pace-progress" style="width: 10%;" data-progress-text="10%" data-progress="10">\n  <div class="pace-progress-inner"></div>\n</div>\n<div class="pace-activity"></div></div>\n\n<!-- begin #page-loader -->\n<div id="page-loader" class="hide">\n    <div class="material-loader">\n        <svg class="circular" viewBox="25 25 50 50">\n            <circle class="path" cx="50" cy="50" r="20" fill="none" stroke-width="2" stroke-miterlimit="10"></circle>\n        </svg>\n        <div class="message">Loading...</div>\n    </div>\n</div>\n<!-- end #page-loader -->\n\n<!-- begin #page-container -->\n<div id="page-container" class="fade in">\n    <!-- begin login -->\n    <div class="login bg-grey-800 animated fadeInDown">\n        <!-- begin brand -->\n        <div class="login-header">\n            <div class="brand text-inverse">\n                <span class="logo"></span>\n                Tools Intelligence Retail\n            </div>\n\n        </div>\n        <!-- end brand -->\n        <div class="login-content">\n            <form id="login-form" action="/site/login" method="post">\n<input type="hidden" name="_csrf-markup" value="cEBED0qBe81fDoCGj7CSfIeJHf_UvirB6SEcyGyBkr0pLw5CJKxJvit81-rO0vAVxsdMr5LSf7uvZkSvXNTCiQ==">\n            <div class="form-group field-loginform-name required">\n<label class="control-label" for="loginform-name">\xd0\x9b\xd0\xbe\xd0\xb3\xd0\xb8\xd0\xbd</label>\n<input type="text" id="loginform-name" class="form-control" name="LoginForm[name]" autofocus="" aria-required="true">\n\n<p class="help-block help-block-error"></p>\n</div>\n            <div class="form-group field-loginform-password required">\n<label class="control-label" for="loginform-password">\xd0\x9f\xd0\xb0\xd1\x80\xd0\xbe\xd0\xbb\xd1\x8c</label>\n<input type="password" id="loginform-password" class="form-control" name="LoginForm[password]" aria-required="true">\n\n<p class="help-block help-block-error"></p>\n</div>\n            <div class="form-group field-loginform-rememberme">\n<div class="checkbox">\n<label for="loginform-rememberme">\n<input type="hidden" name="LoginForm[rememberMe]" value="0"><input type="checkbox" id="loginform-rememberme" name="LoginForm[rememberMe]" value="1">\n\xd0\x97\xd0\xb0\xd0\xbf\xd0\xbe\xd0\xbc\xd0\xbd\xd0\xb8\xd1\x82\xd1\x8c \xd0\xbc\xd0\xb5\xd0\xbd\xd1\x8f\n</label>\n<p class="help-block help-block-error"></p>\n\n</div>\n</div>\n            <div class="form-group">\n                <button type="submit" class="btn btn-success btn-block btn-lg" name="login-button">Login</button>            </div>\n\n            </form>        </div>\n    </div>\n    <!-- end login -->\n\n</div>\n<!-- end page container -->\n\n<script src="/assets/5ff75d3c/vue.js?v=1605252121"></script>\n<script src="/color-admin/plugins/pace/pace.min.js?v=1605251424"></script>\n<script src="/color-admin/js/jquery.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/jquery/jquery-migrate-1.1.0.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/jquery-ui/ui/minified/jquery-ui.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/bootstrap/js/bootstrap.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/slimscroll/jquery.slimscroll.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/jquery-cookie/jquery.cookie.js?v=1605251424"></script>\n<script src="/color-admin/plugins/gritter/js/jquery.gritter.js?v=1605251424"></script>\n<script src="/color-admin/plugins/bootstrap-select/bootstrap-select.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/select2/dist/js/select2.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/sparkline/jquery.sparkline.js?v=1605251424"></script>\n<script src="/color-admin/plugins/jquery-jvectormap/jquery-jvectormap-1.2.2.min.js?v=1605251424"></script>\n<script src="/color-admin/plugins/jquery-jvectormap/jquery-jvectormap-world-mill-en.js?v=1605251424"></script>\n<script src="/color-admin/plugins/bootstrap-datepicker/js/bootstrap-datepicker.js?v=1605251424"></script>\n<script src="/color-admin/js/dashboard.min.js?v=1605251424"></script>\n<script src="/color-admin/yii/yii.gridView.js?v=1605251424"></script>\n<script src="/color-admin/yii/yii.activeForm.js?v=1605251424"></script>\n<script src="/color-admin/js/apps.min.js?v=1605251424"></script>\n<script src="/js/main.js?v=1605251474"></script>\n<script src="/custom_js/lazy_load_image.js?v=1605251424"></script>\n<script src="/assets/90ad03c/jquery.js?v=1605252121"></script>\n<script src="/assets/a90ae46d/yii.js?v=1605252121"></script>\n<script src="/assets/a90ae46d/yii.validation.js?v=1605252121"></script>\n<script src="/assets/a90ae46d/yii.activeForm.js?v=1605252121"></script>\n<script>jQuery(function ($) {\njQuery(\'#login-form\').yiiActiveForm([{"id":"loginform-name","name":"name","container":".field-loginform-name","input":"#loginform-name","error":".help-block.help-block-error","validate":function (attribute, value, messages, deferred, $form) {yii.validation.required(value, messages, {"message":"\xd0\x9d\xd0\xb5\xd0\xbe\xd0\xb1\xd1\x85\xd0\xbe\xd0\xb4\xd0\xb8\xd0\xbc\xd0\xbe \xd0\xb7\xd0\xb0\xd0\xbf\xd0\xbe\xd0\xbb\xd0\xbd\xd0\xb8\xd1\x82\xd1\x8c \xc2\xab\xd0\x9b\xd0\xbe\xd0\xb3\xd0\xb8\xd0\xbd\xc2\xbb."});}},{"id":"loginform-password","name":"password","container":".field-loginform-password","input":"#loginform-password","error":".help-block.help-block-error","validate":function (attribute, value, messages, deferred, $form) {yii.validation.required(value, messages, {"message":"\xd0\x9d\xd0\xb5\xd0\xbe\xd0\xb1\xd1\x85\xd0\xbe\xd0\xb4\xd0\xb8\xd0\xbc\xd0\xbe \xd0\xb7\xd0\xb0\xd0\xbf\xd0\xbe\xd0\xbb\xd0\xbd\xd0\xb8\xd1\x82\xd1\x8c \xc2\xab\xd0\x9f\xd0\xb0\xd1\x80\xd0\xbe\xd0\xbb\xd1\x8c\xc2\xbb."});}},{"id":"loginform-rememberme","name":"rememberMe","container":".field-loginform-rememberme","input":"#loginform-rememberme","error":".help-block.help-block-error","validate":function (attribute, value, messages, deferred, $form) {yii.validation.boolean(value, messages, {"trueValue":"1","falseValue":"0","message":"\xd0\x97\xd0\xbd\xd0\xb0\xd1\x87\xd0\xb5\xd0\xbd\xd0\xb8\xd0\xb5 \xc2\xab\xd0\x97\xd0\xb0\xd0\xbf\xd0\xbe\xd0\xbc\xd0\xbd\xd0\xb8\xd1\x82\xd1\x8c \xd0\xbc\xd0\xb5\xd0\xbd\xd1\x8f\xc2\xbb \xd0\xb4\xd0\xbe\xd0\xbb\xd0\xb6\xd0\xbd\xd0\xbe \xd0\xb1\xd1\x8b\xd1\x82\xd1\x8c \xd1\x80\xd0\xb0\xd0\xb2\xd0\xbd\xd0\xbe \xc2\xab1\xc2\xbb \xd0\xb8\xd0\xbb\xd0\xb8 \xc2\xab0\xc2\xbb.","skipOnEmpty":1});}}], []);\n});</script>\n<script>\n    $(document).ready(function() {\n        App.init();\n    });\n</script>\n\n\n\n</body></html>'[/CODE]
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,695
Записей в блоге: 29
19.11.2020, 07:43
Цитата Сообщение от Eliy Посмотреть сообщение
что я вижу в итоге
так блин выключи ты хедлесс и посмотри глазами что там происходит в браузере!
1
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
19.11.2020, 09:42  [ТС]
да, он логин вводит и пароль, а потом его опять выбрасывает на страницу логин, как будто и не было логина.. может после клика подождать попросить.. (ожидание добавила, всё равно, в форму всё введено, но не логинится (может всё-таки в этом markup дело( в форме - полезная нагрузка запроса?
HTML5
1
_csrf-markup=-HZ3IfyhZ6xIRSOPZNmbpjWw4dFqQAex0A5pNSfcRyWJTjhiqdQD5AAaQuZd7cz_b_u5mTN0NvyHdlxTQY4DVA%3D%3D&LoginForm%5Bname%5D=elina.duchinskaya&LoginForm%5Bpassword%5D=8KGGpg14&LoginForm%5BrememberMe%5D=0&login-button=
и ещё может кнопку не так нажимаю(

HTML5
1
<button type="submit" class="btn btn-success btn-block btn-lg" name="login-button">Login</button>
Добавлено через 4 минуты
Python
1
driver.find_element_by_xpath("/html/body/div[3]/div/div[2]/form/div[4]/button").click()
не помогло(
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,695
Записей в блоге: 29
19.11.2020, 10:26
Цитата Сообщение от Eliy Посмотреть сообщение
не помогло(
ну без сайта логина и пароля помочь не могу. Что-то не так делаешь, читай доку селениума
1
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,695
Записей в блоге: 29
19.12.2020, 11:26
Python
1
2
3
4
5
6
7
8
9
>>> url='https://iqtools-grocery-prod.intrtl.com/site/login'
>>> from selenium import webdriver
>>> d = webdriver.Chrome()
>>> d.get(url)
>>> user = '*****'
>>> password='*****'
>>> d.find_element_by_id('loginform-name').send_keys(user)
>>> d.find_element_by_id('loginform-password').send_keys(password)
>>> d.find_element_by_name('login-button').click()
все работает
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
19.12.2020, 15:45
Цитата Сообщение от Eliy Посмотреть сообщение
from bs4 import BeautifulSoup
Зачем использовать bs4, когда есть lxml?
lxml позволяет работать напрямую с формами.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
    # отправляем первичный запрос на главную страницу, чтобы получить сессионные куки
    session = requests.Session()
    # шаг первый
    resp = session.get(host,headers=headers)
    html = resp.text
    root = lxml.html.fromstring(html) #  получаем разобранное дерево элементов
    title = root.xpath('//title')[0].text
    
    print(title)
    time.sleep(2)
    # шаг второй
    resp = session.get(login_url,headers=headers)
    html = resp.text
    root = lxml.html.fromstring(html) #  получаем разобранное дерево элементов
    title = root.xpath('//title')[0].text # находим заголовок; по идее он есть практически у всех страничек
    print(title)  # смотрим заголовок страницы
    # проверка что это нужная нам страничка логина; можно не делать и нужно понимать, что заголовок странички логина  может быть другим
    if 'Login' in title:    
        form = root.forms[0]  # берем самую первую форму - то, что брать нужно именно ее - нужно убеждаться эмпирическим путем, заглянув в исходный код страницы, так как нужная форма может и не быть первой
        print(form.form_values())
        # заполняем поля; скрытые поля будут отосланы автоматически
        form.fields['username'] = login      # имена полей узнаем из исходного кода страницы; у вас они могут быть дргуими
        form.fields['password'] = password
        time.sleep(2)
        # шаг третий
        # в form.action  должен быть относительный url, иначе host не нужен.
        resp = session.post("{}{}".format(host,form.action), data=form.form_values())
        ... дальше проверяем что это страничка на которую нас должны перенаправить после удачного логина
0
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
19.12.2020, 16:02  [ТС]
а lxml поможет с динамическими страницами?

@Welemir1 помог с авторизацией на сайте - я теперь поняла, почему меня выкидывало (после get(логин_страница) я вызывала get(ревизия_страница) и меня выкидывало вновь)
Пока не могу это решить, я уже даже стала основной страницей делать не логин страницу, а нужный раздел сайта, и я туда захожу, НО далее надо выбрать значение из выпадающего списка, чтобы отсортировать картинки на сайте (на текущий момент открыть напрямую страницу с нужным class_id не удалось)..

я думаю как вариант попробовать остаться в сессии селениум, пока не понимаю как)

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
def main():
    iqname = str(input("Enter iqtools name: "))
    #classid = str(input("Enter class id: "))
    name = str(input("Enter name: "))
    password = str(input("Enter pass: "))
 
    #iter_link = f"https://iqtools-{iqname}.intrtl.com/validate?klass_id={classid}&lots_id&size_id&confirm=&page=1&proposal=false&limit=0&klass_search="
    base_link = f"https://iqtools-{iqname}.intrtl.com/validate?confirm=&page=1&proposal=false&limit=0"
 
    driver = webdriver.Chrome(executable_path=r'C:\Users\elili\Documents\Python\chromedriver')
    driver.get (base_link)
    try:
        element_present = EC.presence_of_element_located((By.NAME, 'login-button'))
        WebDriverWait(driver, 10).until(element_present)
    except TimeoutException:
        print("Timed out waiting for page to load")
 
    driver.find_element_by_id("loginform-name").send_keys(name)
    driver.find_element_by_id ("loginform-password").send_keys(password)
    driver.find_element_by_name("login-button").click()
    
    WebDriverWait(driver, 100)
 
    print(driver.page_source)
 
    i = list(range(1,5))
 
    images = driver.find_elements_by_tag_name('img')
        
    for image in images:
        print(image.get_attribute('src'))
    
    while(True):
        pass
 
    #driver.quit()
 
if __name__ == '__main__':
 
    main()
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
19.12.2020, 16:09
Цитата Сообщение от Eliy Посмотреть сообщение
а lxml поможет с динамическими страницами?
Тебе логин нужен или что? Страничка логина статическая.
А все прочее можно получать через AJAX запросы.
1
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
19.12.2020, 16:18  [ТС]
Спасибо! Почитаю про них!
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
19.12.2020, 16:31
Цитата Сообщение от Eliy Посмотреть сообщение
Почитаю про них!
Про них нечего читать. Разве что один абзац в вики.
AJAX запросы нужно уметь видеть в браузерных тулзах для разработчика и генерировать точно такие же.
Многие динамические странички это просто AJAX запросы к серверу, который присылает json-чик с данными.
Хотя, конечно, если страничка вся построена чисто на браузерном javascript, то с этим уже без эмуляции браузера никак не справиться.
0
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
19.12.2020, 17:29  [ТС]
думаю, что да, JS

прилагаю принскрины.

дело в том, что у меня открывается нужная страница после логина (то есть я сразу открываю её, на логин перенаправляюсь автоматически, логинюсь, и она открывается)
base_link = f"https://iqtools-{iqname}.intrtl.com/validate?confirm=&page=1&proposal=false& limit=0"

, но со страницей, направляющей меня сразу на список картинок класса, так не получается
iter_link = f"https://iqtools-{iqname}.intrtl.com/validate?klass_id={classid}&lots_id&size _id&confirm=&page=1&proposal=false&limit =0&klass_search="
Миниатюры
Зайти в сессию с requests и продолжить парсинг уже с Selenium   Зайти в сессию с requests и продолжить парсинг уже с Selenium  
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
19.12.2020, 18:48
Нужно смотреть не html код, а запросы на вкладке Network и долго их анализировать.
1
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
19.12.2020, 19:13  [ТС]
ясно.. да, уже изучала там пост запросы..
при запуске хрома из кода я теперь обратила внимание, что есть источники, чего нет в хроме просто у меня открываемом..
в принципе - это то, что мне и нужно, что я раньше находила на сайтах, а сейчас перестала
Миниатюры
Зайти в сессию с requests и продолжить парсинг уже с Selenium  
0
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
22.12.2020, 11:23  [ТС]
не получается продолжить с post запросом((( на этом моменте новая страница не загржуается (iter_url), я остаюсь на старой (base_url)
с чем это может быть связано?((
вроде я даже нашла как запустить ajax script, чтобы он проработал..
при этом в post запросах, там три запроса - неужели такое может быть, что надо три раза запрос посылать? там примерно одинаковые атрибуты..

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
import requests
from lxml import html
import urllib
from bs4 import BeautifulSoup
import io
from seleniumwire import webdriver
import time
from seleniumrequests import Firefox
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.proxy import Proxy, ProxyType
import json
 
#driver = webdriver.PhantomJS()
#options = webdriver.FirefoxOptions()
#options.add_argument('--headless')
#driver = webdriver.Firefox(options=options)
#profile = webdriver.FirefoxProfile()
#profile.accept_untrusted_certs = True
 
#driver = webdriver.Firefox(firefox_profile=profile)
def ajax_complete(driver):
    try:
        return 0 == driver.execute_script("return jQuery.active")
    except WebDriverException:
        return not driver.execute_script("return jQuery && jQuery.active")
 
def main():
    iqname = str(input("Enter iqtools name: "))
    classid = str(input("Enter class id: "))
    name = str(input("Enter name: "))
    password = str(input("Enter pass: "))
 
    iter_url = f"https://iqtools-{iqname}.intrtl.com/validate?klass_id={classid}&lots_id&size_id&confirm=&page=1&proposal=false&limit=0&klass_search="
    base_url = f"https://iqtools-{iqname}.intrtl.com/validate?confirm=&page=1&proposal=false&limit=0"
 
    #profile = webdriver.FirefoxProfile()
    #profile.accept_untrusted_certs = True
    #options = webdriver.FirefoxOptions()
    #options.add_argument('--headless')
 
    
 
    driver = Firefox(executable_path=r'C:\Users\elili\Documents\Python\geckodriver')
    #driver = webdriver.Chrome(executable_path=r'C:\Users\elili\Documents\Python\chromedriver')
    driver.get (base_url)
    try:
        element_present = EC.presence_of_element_located((By.NAME, 'login-button'))
        WebDriverWait(driver, 10).until(element_present)
    except TimeoutException:
        print("Timed out waiting for page to load")
 
    driver.find_element_by_id("loginform-name").send_keys(name)
    driver.find_element_by_id ("loginform-password").send_keys(password)
    driver.find_element_by_name("login-button").click()
    
    try:
        element_present = EC.presence_of_element_located((By.CLASS_NAME, 'klass-wrapper'))
        WebDriverWait(driver, 10).until(element_present)
    except TimeoutException:
        print("Timed out waiting for page to load")
 
    # Create payload
    payload = {
        "confirm": "",
        "klass_id": classid,
        "klass_search": "",
        "limit": "0",
        "lots_id": "null",
        "page": 1,
        "proposal": "false",
        "size_id": "null"
    }
 
    headers = {
        'content-type': 'application/json',
        'referer': iter_url
    }
 
    driver.request('POST', iter_url, data=json.dumps(payload), headers = headers)
    
    WebDriverWait(driver, 20).until(
             ajax_complete,  "Timeout waiting for page to load")
 
    
    classes = driver.find_elements_by_class_name('klass-wrapper')
 
    for clas in classes:
        image = clas.find_element_by_tag_name('img')
        print(image.get_attribute('src'))
        markup = clas.find_element_by_tag_name('a')
        print(markup.get_attribute('href'))
 
    
    #while(True):
    #    pass
 
    #driver.quit()
 
if __name__ == '__main__':
 
    main()
Миниатюры
Зайти в сессию с requests и продолжить парсинг уже с Selenium  
0
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
23.12.2020, 12:31  [ТС]
ура, вышло вот так, можно оказывается просто get с нужным адресом прописать, хотя до этого так не срабатывало)
плюс использовала seleniumrequests, чтобы post запрос отправить
и ещё чей-то код по ожиданию загрузки Ajax скрипта

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
import requests
from lxml import html
import urllib
from bs4 import BeautifulSoup
import io
import os
from seleniumwire import webdriver
import time
from seleniumrequests import Firefox
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.proxy import Proxy, ProxyType
import json
import pandas as pd
 
#driver = webdriver.PhantomJS()
#options = webdriver.FirefoxOptions()
#options.add_argument('--headless')
#driver = webdriver.Firefox(options=options)
#profile = webdriver.FirefoxProfile()
#profile.accept_untrusted_certs = True
 
#driver = webdriver.Firefox(firefox_profile=profile)
def ajax_complete(driver):
    try:
        return 0 == driver.execute_script("return jQuery.active")
    except WebDriverException:
        return not driver.execute_script("return jQuery && jQuery.active")
 
def main():
    iqname = str(input("Enter iqtools name: "))
    classid = str(input("Enter class id: "))
    name = str(input("Enter name: "))
    password = str(input("Enter pass: "))
    page = int(1)
 
    iter_url = f"https://iqtools-{iqname}.intrtl.com/validate?klass_id={classid}&lots_id&size_id&confirm=&page={page}&proposal=false&limit=0&klass_search="
    base_url = f"https://iqtools-{iqname}.intrtl.com/validate?confirm=&page=1&proposal=false&limit=0"
 
    #profile = webdriver.FirefoxProfile()
    #profile.accept_untrusted_certs = True
 
    options = webdriver.FirefoxOptions()
    #options = webdriver.ChromeOptions()
    #options.add_argument('--headless')
 
    driver = Firefox(executable_path=r'C:\Users\elili\Documents\Python\geckodriver', options = options)
    #driver = webdriver.Chrome(executable_path=r'C:\Users\elili\Documents\Python\chromedriver')
    driver.get(base_url)
    try:
        element_present = EC.presence_of_element_located((By.NAME, 'login-button'))
        WebDriverWait(driver, 10).until(element_present)
    except TimeoutException:
        print("Timed out waiting for page to load")
 
    driver.find_element_by_id("loginform-name").send_keys(name)
    driver.find_element_by_id ("loginform-password").send_keys(password)
    driver.find_element_by_name("login-button").click()
    
    try:
        element_present = EC.presence_of_element_located((By.CLASS_NAME, 'klass-wrapper'))
        WebDriverWait(driver, 30).until(element_present)
    except TimeoutException:
        print("Timed out waiting for page to load")
 
 
    driver.get(iter_url)
 
    times = list(range(1,25))
 
    payload = {
        "confirm": "",
        "klass_id": classid,
        "klass_search": "",
        "limit": "0",
        "lots_id": "null",
        "page": 1,
        "proposal": "false",
        "size_id": "null"
    }
 
    headers = {
        'content-type': 'application/json;charset=utf-8',
        'referer': iter_url
    }
 
    driver.request('POST', iter_url, data=json.dumps(payload), headers = headers)
    
    WebDriverWait(driver, 20).until(
        ajax_complete,  "Timeout waiting for page to load")
 
    pagination = driver.find_element_by_class_name('pagination')
    pages =[]
    pages = driver.find_elements_by_class_name('page-item')
    lastpage = pages[-1].find_element_by_tag_name('a').text
    print(lastpage)
 
 
    l = []
    path = os.getcwd()
 
    nums = list(range(40, int(lastpage)))
    for num in nums:
        page = num
        iter_url = f"https://iqtools-{iqname}.intrtl.com/validate?klass_id={classid}&lots_id&size_id&confirm=&page={page}&proposal=false&limit=0&klass_search="
        driver.get(iter_url)
        
        payload = {
            "confirm": "",
            "klass_id": classid,
            "klass_search": "",
            "limit": "0",
            "lots_id": "null",
            "page": 1,
            "proposal": "false",
            "size_id": "null"
        }
 
        headers = {
        'content-type': 'application/json;charset=utf-8',
        'referer': iter_url
        }
 
        driver.request('POST', iter_url, data=json.dumps(payload), headers = headers)
    
        WebDriverWait(driver, 20).until(
            ajax_complete,  "Timeout waiting for page to load")
        
        classes = driver.find_elements_by_class_name('klass-wrapper')
 
        for clas in classes:
            image = clas.find_element_by_tag_name('img')
            imageurl = image.get_attribute('src')
            image = str(imageurl)[str(imageurl).rfind('/'):str(imageurl).rfind("?")]
            urllib.request.urlretrieve(imageurl, path + str(imageurl)[str(imageurl).rfind('/'):str(imageurl).rfind("?")])
            markup = clas.find_element_by_tag_name('a')
            markupurl = markup.get_attribute('href')
            row = [image, markupurl]
            l.append(row)
 
    df = pd.DataFrame(l, columns=["image", "markupurl"])
 
    df.to_excel("validation.xlsx")
    #while(True):
    #    pass
 
    #driver.quit()
 
if __name__ == '__main__':
 
    main()
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
23.12.2020, 12:31
Помогаю со студенческими работами здесь

Python+selenium как продолжить цикл если не находится элемент
Есть цикл, который переходит из бд по ссылкам и ищет элементы. Бывает , что на странице нет этого элемента и цикл прекращается. Так вот...

Парсинг с использованием requests
Добрый день. Столкнулся со следующей проблемой. При попытке вытащить информацию с сайта отправлял post запрос. В качестве логина...

Парсинг JSON с использованием requests
Написать парсер данных, размещенных в json-формате с применением библиотеки requests ссылка: https://jsonplaceholder.typicode.com/posts ...

Парсинг динамического сайта библиотекой requests
Всем привет. Нужно спарсить названия всех треков в плейлисте в яндекс музыке. requests отдаёт только 100 записей. Насколько я понял, все...

Парсинг olx.ua Python+requests+bs4
Пытаясь сделать парсер мобильных телефонов на сайте olx.ua столкнулся с проблемой:при отправке ajax запроса мне выдает вместо корректного...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
19
Ответ Создать тему
Опции темы

Новые блоги и статьи
Валидация и контроль данных табличной части документа перед записью
Maks 22.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в КА2. Задача: контроль и валидация данных табличной части документа перед записью с учетом регламента компании. . .
Отчёт о затраченных материалах за определенный период с макетом печатной формы
Maks 21.04.2026
Отчёт из решения ниже размещён в конфигурации КА2. Задача: разработка отчёта по затраченным материалам за определённый период, с возможностью вывода печатной формы отчёта с шапкой и подвалом. В. . .
Отчёт о спецтехнике находящейся в ремонте
Maks 20.04.2026
Отчёт из решения ниже размещен в конфигурации КА2. Задача: отобразить спецтехнику, которая на данный момент находится в ремонте. Есть нетиповой документ "Заявка на ремонт спецтехники" который. . .
Памятка для бота и "визитка" для читателей "Semantic Universe Layer (Слой семантической вселенной)"
Hrethgir 19.04.2026
Сгенерировано для краткого описания по случаю сборки и компиляции скелета серверного приложения. И пусть после этого скажут, что статьи сгенерированные AI - туфта и не интересно. И это не реклама -. . .
Запрет удаления строк ТЧ документа при определённом условии
Maks 19.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "Аккумуляторы", разработанного в конфигурации КА2. У данного документа есть ТЧ, в которой в зависимости от прав доступа. . .
Модель заражения группы наркоманов
alhaos 17.04.2026
Условия задачи сформулированы тут Суть: - Группа наркоманов из 10 человек. - Только один инфицирован ВИЧ. - Колются одной иглой. - Колются раз в день. - Колются последовательно через. . .
Мысли в слух. Про "навсегда".
kumehtar 16.04.2026
Подумалось тут, что наверное очень глупо использовать во всяких своих установках понятие "навсегда". Это очень сильное понятие, и я только начинаю понимать край его смысла, не смотря на то что давно. . .
My Business CRM
MaGz GoLd 16.04.2026
Всем привет, недавно возникла потребность создать CRM, для личных нужд. Собственно программа предоставляет из себя базу данных клиентов, в которой можно фиксировать звонки, стадии сделки, а также. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru