Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/15: Рейтинг темы: голосов - 15, средняя оценка - 4.67
0 / 0 / 0
Регистрация: 10.11.2019
Сообщений: 3

Как сделать многопоточный парсер

10.11.2019, 16:45. Показов 3049. Ответов 4

Студворк — интернет-сервис помощи студентам
Я хочу сделать многопоточный парсер, но у меня просто нагружается процессор

Задача моей программы в извлечении текстовой информации из сайта и запись ее в файл, урл адрес будет создаваться кусками ну в коде сейчас будет видно, тип я беру ник из файла и добавляю его к ссылке и в итоге получается одна ссылка которую нужно парсить, Я добавляю все ссылки которые нужно будет парсить в массив чтобы использовать функцию МАП, но у меня оно не работает не понимаю почему


Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
import requests
import time
from multiprocessing import cpu_count
from multiprocessing import Pool
 
urls1=[]
url1='http://my_url/'
f=open("nicknames.txt",'r')
for line in f:
    x=line
    if line.find(':')>=0:
        line=line[:line.find(':')]
    urls1.append(url1+line)
f.close()
 
def parse(url):
    r = requests.get(Я незнаю что здесь поставить)
    R=r.text
    p0=R.find('RAP:');R=R[p0:];p1=R.find('</span>');p2=R.find('>')
    R=R[p2+1:p1] #это я без бьютифул супа парсю штмл#
    print(R)
    if len(R[2:])>0:
        normal.append(x+' '+R[2:]+'$')
    else:
        err.append(x+' '+R[2:])
    time.sleep(1)
 
with Pool(4) as p:
    p.map(parse, urls1)
    p.terminate()
    p.join()
 
e=open('error.txt','w')
e.write(err)
e.close()
m=open('normal.txt','w')
m.write(normal)
m.close()
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
10.11.2019, 16:45
Ответы с готовыми решениями:

Как сделать парсер данного сайта? уже 4 день сижу с ним
В общем проблема такая, есть сайт, авторизация на нём проходит по адресу: https://login.kundelik.kz/login После авторизации...

Как сделать, чтобы парсер переходил на нужные страницы пока есть нужный
Здравствуйте, при парсинге сайта мне сайт не отдаёт всю пагинацию, а только 3 страницы, но отдаёт кнопку загрузить ещё, которая...

Как сделать такой парсер на python?
Я смотрел видосы по python requests, но не могу понять, как мне взять заголовок первого сайта из поисковой выдачи? То есть...

4
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
10.11.2019, 17:20
Цитата Сообщение от Alex_python Посмотреть сообщение
но у меня оно не работает не понимаю почему
что "оно"? и как не работает?

Цитата Сообщение от Alex_python Посмотреть сообщение
r = requests.get(Я незнаю что здесь поставить)
url?

можно начать с чтения докуметации реквестс, потом учимся парсить через бьютифулсоуп

Добавлено через 42 секунды
Цитата Сообщение от Alex_python Посмотреть сообщение
from multiprocessing
нужен мультитрединг
0
0 / 0 / 0
Регистрация: 10.11.2019
Сообщений: 3
11.11.2019, 12:57  [ТС]
оно- пул(многопоточность, задействуется ЦП, но ничего не делает)
я знаю что урл, но как мне вставить туда 1 ссылку, а не сразу все

Добавлено через 2 минуты
Welemir1, незнаю пришло ли тебе уведомление и из-за этого ещё раз написал вот, не суди строго
0
 Аватар для m0nte-cr1st0
1043 / 578 / 242
Регистрация: 15.01.2019
Сообщений: 2,178
Записей в блоге: 1
11.11.2019, 12:59
Alex_python, цикл мб
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
11.11.2019, 13:04
Alex_python, повторяю -мультипроцессинг не нужен, начни с одного потока, потом добавишь пул мультитрединга (не мультипроцессинга!)

Цитата Сообщение от Alex_python Посмотреть сообщение
я знаю что урл, но как мне вставить туда 1 ссылку, а не сразу все
ты туда и вгоняешь 1 ссылку, а мап вот тут
Цитата Сообщение от Alex_python Посмотреть сообщение
map(parse, urls1)
будет поочередно подставлять ссылки из списка
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
11.11.2019, 13:04
Помогаю со студенческими работами здесь

Сделать многопоточный код из последовательного
Добрый день форумчане, есть код вычисления правила прямоугольников со средней точкой. Собственно, программа последовательна, а надо...

Как сделать, чтобы парсер переходил на нужные страницы пока есть нужный элемент
Здравствуйте, проблема заключается в том, что сайт не отдаёт кол-во пагинации, а только 3, когда на сайте их например 39. Но я заметила что...

Многопоточный парсер, как организовать?
Привет всем зашедшим. Вот такая задача есть. Организовать что-то вроде мнoгoпoтoчного пapсера. Который будет следить за определенной...

Многопоточный парсер сайтов: как обрабатывать javaScript
Здравствуйте! Есть задание написать парсер 3-х сайтов с извлечением определенной информации (для примера картинки). Каждый сайт должен...

Как преобразовать обычный CURL парсер в многопоточный
Есть парсер который использует библиотеки CURL и phpQuery. Он парсит данные с с сайта и сохраняет всё с .csv файл. Но проблема в том, что...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка. Рецензия / Мнение/ Перевод https:/ / **********/ gallery/ thinkpad-x220-tablet-porn-gzoEAjs . . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru