0 / 0 / 0
Регистрация: 23.12.2018
Сообщений: 3

Парсер прокси

24.12.2018, 10:21. Показов 28238. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте, помогите пожалуйста с парсером.
Нужно с сайта http://spys.one/free-proxy-list/RU/ спарсить proxy сервера получается только 30, на сайте в таблице есть фильтры, можно отобразить 500 серверов, при нажатии выполняется post запрос с параметрами, не могу повторить это в python. И еще не понятно как генерируется параметр xx0.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import requests
from bs4 import BeautifulSoup
 
def get_html(url, useragent=None, proxy=None):
    #param={'xx0': '91f191bf14ad97b2b8da69ef749bedef', 'xpp': '5', 'xf1': '0','xf2': '1','xf4': '0','xf5': '0'}
    dt='xx0=91f191bf12ad97b2b7da69ef749bedef&xpp=5&xf1=0&xf2=1&xf4=0&xf5=0'
    r=requests.post(url, data=dt) 
    #print(r.text)
    return r.text 
 
def findproxy(html):
    soup=BeautifulSoup(html,'lxml')
    #tds=soup.find('tbody', id='currencies-all').find_all('td', class_='currency-name') 
    proxys=soup.find_all('tr', class_='spy1xx')[1:]
    for proxy in proxys:
        pr=proxy.find('font', class_="spy14").text  
        print(pr)
 
def main():
    print(findproxy(get_html('http://spys.one/free-proxy-list/RU/')))
 
if __name__ == '__main__':
    main()
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
24.12.2018, 10:21
Ответы с готовыми решениями:

Парсер прокси Проверьте код
Добрый день! Имеется код простого парсера прокси из тхт файла: import requests from random import choice HEADERS = { ...

Реализовать парсер прокси
Всем привет У меня такая проблема Я хочу реализовать парсер прокси Что бы он парсил из выбранных сайтов Например textbox1 это...

Не могу понять (простенький парсер прокси)
Весь день мучаюсь, но не доходит до меня почему этот код ничего не пишет в файл: public partial class Form1 : Form { ...

3
151 / 86 / 35
Регистрация: 05.08.2017
Сообщений: 257
29.12.2018, 23:12
Цитата Сообщение от leonidktoto Посмотреть сообщение
Нужно с сайта http://spys.one/free-proxy-list/RU/ спарсить proxy сервера получается только 30
На этом сайте стоит защита от парсинга, ip то ты получишь, а вот порт там подгружается JSом, поэтому selenium webdriver тебе в помощь
0
0 / 0 / 0
Регистрация: 23.12.2018
Сообщений: 3
01.01.2019, 15:01  [ТС]
Да уже увидел, пока на ум ничего хорошего не пришло кроме того что сделать таблицу соответствий.
Например это порт 8080, для каждой цифры в порту соответствие.
document.write("<font class=spy2>:<\/font>"+(Seven6ThreeNine^ThreeFiveZero)+( EightOneEightFive^Nine0One)+(Seven6Three Nine^ThreeFiveZero)+(EightOneEightFive^N ine0One)).

Честно пока даже не понимаю как с селениумом работать. Понял что это типо эмулирование бразера. Можно попробовать.
Хорошо пример бы.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
03.01.2019, 23:18
Лучший ответ Сообщение было отмечено leonidktoto как решение

Решение

Цитата Сообщение от leonidktoto Посмотреть сообщение
на ум ничего хорошего не пришло кроме того что сделать таблицу соответствий
И никакого селениума. Как?
Элементарно, Ватсон.


Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
from pprint import pprint
import requests
import lxml.html
import re
 
 
def getint(v,decoder):
    try:
        x1,x2 = v.split('^')
        v = int(x1) ^ int(decoder[x2])      
    except Exception:
        v = int(v)
    return v
 
 
def getport(expr):
    tokens = re.findall(r'\(([a-z0-9]+)\^([a-z0-9]+)\)',expr)
    port = ''
    for tok in tokens:
        k,v = tok
        k,v = decoder[k], decoder[v]
        #print('{} ^ {} = {}'.format(k,v, k^v))
        port += str(k ^ v)
    return port
 
def make_table(script):
    decoder = {}
    for param in script.text.split(';'):
        if param:
            k,v = param.split('=')
            decoder[k] = v
        
    #pprint(decoder)
    # вторичное преобразование словаря   
    for k,v in decoder.items():
        v = getint(v,decoder)
        decoder[k] = v
    #pprint(decoder)
    return decoder
 
def get_page(proxies):
    page_proxies = []
    for tr in proxies[1:]:
        tmp = []
        for td in tr.cssselect('font.spy14'):
            tmp += [td.text.strip()]
            
            if len(tmp) == 1:
                try:
                    script = td.xpath(script_xpath)[0]
                    expr = script.text.replace(delete,'')
                    if expr.startswith('+'):
                        tmp[0] = tmp[0] + ':' + getport(expr)
                except Exception:
                    pass    
        if tmp:
            page_proxies.append(tmp) 
    
    return page_proxies
    
if __name__  == "__main__": 
    
    url = 'http://spys.one/proxies/{}'
    delete = 'document.write("<font class=spy2>:<\/font>"'
    script_xpath = 'script[@type="text/javascript"]'
   
    all_proxies = []
    # 4 страницы: 0,1,2,3
    for i in range(0,4):
        resp = requests.get(url.format(i))
        root = lxml.html.fromstring(resp.text)
        decoder = make_table(root.xpath('//' + script_xpath)[0])
        proxies_table = root.xpath('//tr[contains(@class,"spy1x")]')
        all_proxies.extend(get_page(proxies_table))    
        
    pprint(all_proxies)
    print(len(all_proxies)) # 100
Кликните здесь для просмотра всего текста
Code
1
2
3
4
5
6
7
8
9
10
11
[['5.19.165.235:30793','S', 'RU','(Perspectiva Ltd.)', '100% (42)','+','18:56'],
 ['84.52.110.36:38674', 'S', 'RU', '(WEST CALL SPb LLC)', '+', '18:56'],
 ['78.156.243.146:59730', 'S', 'RU', '(Rostelecom)', '+', '18:56'],
 ['91.144.147.248:37632', 'S', 'RU', '(JSC ER-Telecom Holding)', '+', '18:56'],
 ['81.30.211.104:42582', 'S', 'RU', '(OJSC Ufanet)', '18:56'],
 ['193.106.68.146:55821', 'S', 'RU', '(Invest Mobile LLC)', '+', '18:56'],
 ['94.199.109.124:36447', 'S', 'RU', '(OOO WestCall Ltd.)', '+', '18:56'],
 ['94.230.114.72:45504', 'S', 'RU', '(LLC Milecom)', '18:56'],
 ['77.66.203.114:33097', 'S', 'RU', '(MTS PJSC)', '+', '18:56'],
 ['62.165.54.153:55522','S','RU','(Closed Joint Stock Company TransTeleCom)', '100% (49)','+', '18:56'],
....


Добавлено через 5 минут
P.S. Никакие возможные ошибки сервера и т.д. в скрипте никак не обрабатываются, поскольку это просто пример.

Добавлено через 2 часа 7 минут
Update.
Для более правильного разбора ячеек таблицы функция get_page должна быть такой:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
def get_page(proxies):
    page_proxies = []
    for tr in proxies[2:]:
        tmp = []
        for idx,td in enumerate(tr.cssselect('td')):
            # из первой колонки сначала вытаскиваем ip адрес  
            if idx == 0: 
                ipaddr = td.cssselect('font.spy14')
                td_text = ipaddr[0].text
                # затем оттуда же вытаскиваем зашифрованную строку с портом
                script = td.cssselect('script[type="text/javascript"]')[0]
                expr = script.text.replace(delete,'')
                # потом дешифруем порт и соединяем его с ip
                if expr.startswith('+'):
                    td_text = td_text + ':' + getport(expr)
            # для остальных колонок берем все текстовое содержимое, 
            # включая вложенные элементы
            else:
               td_text = td.text_content()
            
            if td_text:
                tmp += [td_text.strip()]
            
        if tmp:
            page_proxies.append(tmp) 
    
    return page_proxies
Результат:
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
[['185.152.253.133:8080',
  'HTTPS (Mikrotik)',
  'NOA',
  '0.542',
  'IT Carinaro',
  '185.152.253.133 (Hytel S.r.l.)',
  '82% (9) +',
  '03:01:19 22:51'],
 ['188.40.9.189:8080',
  'HTTPS',
  'HIA',
  '0.074',
  'DE',
  'static.189.9.40.188.clients.your-server.de (Hetzner Online GmbH)',
  '67% (16) +',
  '03:01:19 22:51'],
 ['5.160.39.226:52550',
  'HTTPS',
  'HIA',
  '0.943',
  'IR',
  '5.160.39.226 (Respina Networks & Beyond PJSC)',
  '100% (20) +',
  '03:01:19 22:51'],
 ['36.66.220.79:80',
  'HTTPS (Mikrotik)',
  'NOA',
  '5.564',
  'ID Маланг',
  '36.66.220.79 (PT Telekomunikasi Indonesia)',
  '100% (4) -',
  '03:01:19 22:50'],
...
Все восемь колонок - кроме скорости, где текста нет вообще.
2
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
03.01.2019, 23:18
Помогаю со студенческими работами здесь

Заход на сайт через прокси (парсер ников с форума)
В общем столкнулся со следующей проблемой, пишу парсер ников с определенного форума, как мне использовать прокси? я написал вот так, но...

WebClient ротация прокси и отключение использования прокси через checkbox формы
Доброе время суток. Такая проблема -имеется код, который позволяет работать со списком прокси , требуется чтобы была ротация и через...

После запуска TWebBrowser с прокси - без прокси он уже не запускается
2. После запуска TWebBrowser с прокси - без прокси TWebBrowser уже не запускается. Заранее спасибо за помощь.

Прокси-сервер на nginx периодически редиректит на домен, который открываю через прокси
Добрый день! Есть обычный сайт (пусть будет domain.ru) , а есть прокси-сервер на vds который доступен в адресной строке по домену...

Как быстро скачивать через прокси с файлообменников или без использования прокси
Доброго времени суток, как вы возможно знаете, для загрузки с облака маил ру или ядаа пользователи из хохляндии вынуждены использовать...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Опции темы

Новые блоги и статьи
Валидация и контроль данных табличной части документа перед записью
Maks 22.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в КА2. Задача: контроль и валидация данных табличной части документа перед записью с учетом регламента компании. . .
Отчёт о затраченных материалах за определенный период с макетом печатной формы
Maks 21.04.2026
Отчёт из решения ниже размещён в конфигурации КА2. Задача: разработка отчёта по затраченным материалам за определённый период, с возможностью вывода печатной формы отчёта с шапкой и подвалом. В. . .
Отчёт о спецтехнике находящейся в ремонте
Maks 20.04.2026
Отчёт из решения ниже размещен в конфигурации КА2. Задача: отобразить спецтехнику, которая на данный момент находится в ремонте. Есть нетиповой документ "Заявка на ремонт спецтехники" который. . .
Памятка для бота и "визитка" для читателей "Semantic Universe Layer (Слой семантической вселенной)"
Hrethgir 19.04.2026
Сгенерировано для краткого описания по случаю сборки и компиляции скелета серверного приложения. И пусть после этого скажут, что статьи сгенерированные AI - туфта и не интересно. И это не реклама -. . .
Запрет удаления строк ТЧ документа при определённом условии
Maks 19.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "Аккумуляторы", разработанного в конфигурации КА2. У данного документа есть ТЧ, в которой в зависимости от прав доступа. . .
Модель заражения группы наркоманов
alhaos 17.04.2026
Условия задачи сформулированы тут Суть: - Группа наркоманов из 10 человек. - Только один инфицирован ВИЧ. - Колются одной иглой. - Колются раз в день. - Колются последовательно через. . .
Мысли в слух. Про "навсегда".
kumehtar 16.04.2026
Подумалось тут, что наверное очень глупо использовать во всяких своих установках понятие "навсегда". Это очень сильное понятие, и я только начинаю понимать край его смысла, не смотря на то что давно. . .
My Business CRM
MaGz GoLd 16.04.2026
Всем привет, недавно возникла потребность создать CRM, для личных нужд. Собственно программа предоставляет из себя базу данных клиентов, в которой можно фиксировать звонки, стадии сделки, а также. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru