Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.98/140: Рейтинг темы: голосов - 140, средняя оценка - 4.98
0 / 0 / 0
Регистрация: 23.12.2018
Сообщений: 3

Парсер прокси

24.12.2018, 10:21. Показов 28219. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте, помогите пожалуйста с парсером.
Нужно с сайта http://spys.one/free-proxy-list/RU/ спарсить proxy сервера получается только 30, на сайте в таблице есть фильтры, можно отобразить 500 серверов, при нажатии выполняется post запрос с параметрами, не могу повторить это в python. И еще не понятно как генерируется параметр xx0.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import requests
from bs4 import BeautifulSoup
 
def get_html(url, useragent=None, proxy=None):
    #param={'xx0': '91f191bf14ad97b2b8da69ef749bedef', 'xpp': '5', 'xf1': '0','xf2': '1','xf4': '0','xf5': '0'}
    dt='xx0=91f191bf12ad97b2b7da69ef749bedef&xpp=5&xf1=0&xf2=1&xf4=0&xf5=0'
    r=requests.post(url, data=dt) 
    #print(r.text)
    return r.text 
 
def findproxy(html):
    soup=BeautifulSoup(html,'lxml')
    #tds=soup.find('tbody', id='currencies-all').find_all('td', class_='currency-name') 
    proxys=soup.find_all('tr', class_='spy1xx')[1:]
    for proxy in proxys:
        pr=proxy.find('font', class_="spy14").text  
        print(pr)
 
def main():
    print(findproxy(get_html('http://spys.one/free-proxy-list/RU/')))
 
if __name__ == '__main__':
    main()
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
24.12.2018, 10:21
Ответы с готовыми решениями:

Парсер прокси Проверьте код
Добрый день! Имеется код простого парсера прокси из тхт файла: import requests from random import choice HEADERS = { ...

Реализовать парсер прокси
Всем привет У меня такая проблема Я хочу реализовать парсер прокси Что бы он парсил из выбранных сайтов Например textbox1 это...

Не могу понять (простенький парсер прокси)
Весь день мучаюсь, но не доходит до меня почему этот код ничего не пишет в файл: public partial class Form1 : Form { ...

3
151 / 86 / 35
Регистрация: 05.08.2017
Сообщений: 257
29.12.2018, 23:12
Цитата Сообщение от leonidktoto Посмотреть сообщение
Нужно с сайта http://spys.one/free-proxy-list/RU/ спарсить proxy сервера получается только 30
На этом сайте стоит защита от парсинга, ip то ты получишь, а вот порт там подгружается JSом, поэтому selenium webdriver тебе в помощь
0
0 / 0 / 0
Регистрация: 23.12.2018
Сообщений: 3
01.01.2019, 15:01  [ТС]
Да уже увидел, пока на ум ничего хорошего не пришло кроме того что сделать таблицу соответствий.
Например это порт 8080, для каждой цифры в порту соответствие.
document.write("<font class=spy2>:<\/font>"+(Seven6ThreeNine^ThreeFiveZero)+( EightOneEightFive^Nine0One)+(Seven6Three Nine^ThreeFiveZero)+(EightOneEightFive^N ine0One)).

Честно пока даже не понимаю как с селениумом работать. Понял что это типо эмулирование бразера. Можно попробовать.
Хорошо пример бы.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
03.01.2019, 23:18
Лучший ответ Сообщение было отмечено leonidktoto как решение

Решение

Цитата Сообщение от leonidktoto Посмотреть сообщение
на ум ничего хорошего не пришло кроме того что сделать таблицу соответствий
И никакого селениума. Как?
Элементарно, Ватсон.


Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
from pprint import pprint
import requests
import lxml.html
import re
 
 
def getint(v,decoder):
    try:
        x1,x2 = v.split('^')
        v = int(x1) ^ int(decoder[x2])      
    except Exception:
        v = int(v)
    return v
 
 
def getport(expr):
    tokens = re.findall(r'\(([a-z0-9]+)\^([a-z0-9]+)\)',expr)
    port = ''
    for tok in tokens:
        k,v = tok
        k,v = decoder[k], decoder[v]
        #print('{} ^ {} = {}'.format(k,v, k^v))
        port += str(k ^ v)
    return port
 
def make_table(script):
    decoder = {}
    for param in script.text.split(';'):
        if param:
            k,v = param.split('=')
            decoder[k] = v
        
    #pprint(decoder)
    # вторичное преобразование словаря   
    for k,v in decoder.items():
        v = getint(v,decoder)
        decoder[k] = v
    #pprint(decoder)
    return decoder
 
def get_page(proxies):
    page_proxies = []
    for tr in proxies[1:]:
        tmp = []
        for td in tr.cssselect('font.spy14'):
            tmp += [td.text.strip()]
            
            if len(tmp) == 1:
                try:
                    script = td.xpath(script_xpath)[0]
                    expr = script.text.replace(delete,'')
                    if expr.startswith('+'):
                        tmp[0] = tmp[0] + ':' + getport(expr)
                except Exception:
                    pass    
        if tmp:
            page_proxies.append(tmp) 
    
    return page_proxies
    
if __name__  == "__main__": 
    
    url = 'http://spys.one/proxies/{}'
    delete = 'document.write("<font class=spy2>:<\/font>"'
    script_xpath = 'script[@type="text/javascript"]'
   
    all_proxies = []
    # 4 страницы: 0,1,2,3
    for i in range(0,4):
        resp = requests.get(url.format(i))
        root = lxml.html.fromstring(resp.text)
        decoder = make_table(root.xpath('//' + script_xpath)[0])
        proxies_table = root.xpath('//tr[contains(@class,"spy1x")]')
        all_proxies.extend(get_page(proxies_table))    
        
    pprint(all_proxies)
    print(len(all_proxies)) # 100
Кликните здесь для просмотра всего текста
Code
1
2
3
4
5
6
7
8
9
10
11
[['5.19.165.235:30793','S', 'RU','(Perspectiva Ltd.)', '100% (42)','+','18:56'],
 ['84.52.110.36:38674', 'S', 'RU', '(WEST CALL SPb LLC)', '+', '18:56'],
 ['78.156.243.146:59730', 'S', 'RU', '(Rostelecom)', '+', '18:56'],
 ['91.144.147.248:37632', 'S', 'RU', '(JSC ER-Telecom Holding)', '+', '18:56'],
 ['81.30.211.104:42582', 'S', 'RU', '(OJSC Ufanet)', '18:56'],
 ['193.106.68.146:55821', 'S', 'RU', '(Invest Mobile LLC)', '+', '18:56'],
 ['94.199.109.124:36447', 'S', 'RU', '(OOO WestCall Ltd.)', '+', '18:56'],
 ['94.230.114.72:45504', 'S', 'RU', '(LLC Milecom)', '18:56'],
 ['77.66.203.114:33097', 'S', 'RU', '(MTS PJSC)', '+', '18:56'],
 ['62.165.54.153:55522','S','RU','(Closed Joint Stock Company TransTeleCom)', '100% (49)','+', '18:56'],
....


Добавлено через 5 минут
P.S. Никакие возможные ошибки сервера и т.д. в скрипте никак не обрабатываются, поскольку это просто пример.

Добавлено через 2 часа 7 минут
Update.
Для более правильного разбора ячеек таблицы функция get_page должна быть такой:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
def get_page(proxies):
    page_proxies = []
    for tr in proxies[2:]:
        tmp = []
        for idx,td in enumerate(tr.cssselect('td')):
            # из первой колонки сначала вытаскиваем ip адрес  
            if idx == 0: 
                ipaddr = td.cssselect('font.spy14')
                td_text = ipaddr[0].text
                # затем оттуда же вытаскиваем зашифрованную строку с портом
                script = td.cssselect('script[type="text/javascript"]')[0]
                expr = script.text.replace(delete,'')
                # потом дешифруем порт и соединяем его с ip
                if expr.startswith('+'):
                    td_text = td_text + ':' + getport(expr)
            # для остальных колонок берем все текстовое содержимое, 
            # включая вложенные элементы
            else:
               td_text = td.text_content()
            
            if td_text:
                tmp += [td_text.strip()]
            
        if tmp:
            page_proxies.append(tmp) 
    
    return page_proxies
Результат:
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
[['185.152.253.133:8080',
  'HTTPS (Mikrotik)',
  'NOA',
  '0.542',
  'IT Carinaro',
  '185.152.253.133 (Hytel S.r.l.)',
  '82% (9) +',
  '03:01:19 22:51'],
 ['188.40.9.189:8080',
  'HTTPS',
  'HIA',
  '0.074',
  'DE',
  'static.189.9.40.188.clients.your-server.de (Hetzner Online GmbH)',
  '67% (16) +',
  '03:01:19 22:51'],
 ['5.160.39.226:52550',
  'HTTPS',
  'HIA',
  '0.943',
  'IR',
  '5.160.39.226 (Respina Networks & Beyond PJSC)',
  '100% (20) +',
  '03:01:19 22:51'],
 ['36.66.220.79:80',
  'HTTPS (Mikrotik)',
  'NOA',
  '5.564',
  'ID Маланг',
  '36.66.220.79 (PT Telekomunikasi Indonesia)',
  '100% (4) -',
  '03:01:19 22:50'],
...
Все восемь колонок - кроме скорости, где текста нет вообще.
2
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
03.01.2019, 23:18
Помогаю со студенческими работами здесь

Заход на сайт через прокси (парсер ников с форума)
В общем столкнулся со следующей проблемой, пишу парсер ников с определенного форума, как мне использовать прокси? я написал вот так, но...

WebClient ротация прокси и отключение использования прокси через checkbox формы
Доброе время суток. Такая проблема -имеется код, который позволяет работать со списком прокси , требуется чтобы была ротация и через...

После запуска TWebBrowser с прокси - без прокси он уже не запускается
2. После запуска TWebBrowser с прокси - без прокси TWebBrowser уже не запускается. Заранее спасибо за помощь.

Прокси-сервер на nginx периодически редиректит на домен, который открываю через прокси
Добрый день! Есть обычный сайт (пусть будет domain.ru) , а есть прокси-сервер на vds который доступен в адресной строке по домену...

Как быстро скачивать через прокси с файлообменников или без использования прокси
Доброго времени суток, как вы возможно знаете, для загрузки с облака маил ру или ядаа пользователи из хохляндии вынуждены использовать...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
Вывод диалогового окна перед закрытием, если документ не проведён
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .
Программный контроль заполнения реквизита табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита "ПричинаСписания". . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Программное заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru