Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/15: Рейтинг темы: голосов - 15, средняя оценка - 4.67
0 / 0 / 0
Регистрация: 10.11.2019
Сообщений: 3

Как сделать многопоточный парсер

10.11.2019, 16:45. Показов 3085. Ответов 4

Студворк — интернет-сервис помощи студентам
Я хочу сделать многопоточный парсер, но у меня просто нагружается процессор

Задача моей программы в извлечении текстовой информации из сайта и запись ее в файл, урл адрес будет создаваться кусками ну в коде сейчас будет видно, тип я беру ник из файла и добавляю его к ссылке и в итоге получается одна ссылка которую нужно парсить, Я добавляю все ссылки которые нужно будет парсить в массив чтобы использовать функцию МАП, но у меня оно не работает не понимаю почему


Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
import requests
import time
from multiprocessing import cpu_count
from multiprocessing import Pool
 
urls1=[]
url1='http://my_url/'
f=open("nicknames.txt",'r')
for line in f:
    x=line
    if line.find(':')>=0:
        line=line[:line.find(':')]
    urls1.append(url1+line)
f.close()
 
def parse(url):
    r = requests.get(Я незнаю что здесь поставить)
    R=r.text
    p0=R.find('RAP:');R=R[p0:];p1=R.find('</span>');p2=R.find('>')
    R=R[p2+1:p1] #это я без бьютифул супа парсю штмл#
    print(R)
    if len(R[2:])>0:
        normal.append(x+' '+R[2:]+'$')
    else:
        err.append(x+' '+R[2:])
    time.sleep(1)
 
with Pool(4) as p:
    p.map(parse, urls1)
    p.terminate()
    p.join()
 
e=open('error.txt','w')
e.write(err)
e.close()
m=open('normal.txt','w')
m.write(normal)
m.close()
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
10.11.2019, 16:45
Ответы с готовыми решениями:

Как сделать парсер данного сайта? уже 4 день сижу с ним
В общем проблема такая, есть сайт, авторизация на нём проходит по адресу: https://login.kundelik.kz/login После авторизации...

Как сделать, чтобы парсер переходил на нужные страницы пока есть нужный
Здравствуйте, при парсинге сайта мне сайт не отдаёт всю пагинацию, а только 3 страницы, но отдаёт кнопку загрузить ещё, которая...

Как сделать такой парсер на python?
Я смотрел видосы по python requests, но не могу понять, как мне взять заголовок первого сайта из поисковой выдачи? То есть...

4
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7391 / 4818 / 1246
Регистрация: 30.03.2015
Сообщений: 13,684
Записей в блоге: 29
10.11.2019, 17:20
Цитата Сообщение от Alex_python Посмотреть сообщение
но у меня оно не работает не понимаю почему
что "оно"? и как не работает?

Цитата Сообщение от Alex_python Посмотреть сообщение
r = requests.get(Я незнаю что здесь поставить)
url?

можно начать с чтения докуметации реквестс, потом учимся парсить через бьютифулсоуп

Добавлено через 42 секунды
Цитата Сообщение от Alex_python Посмотреть сообщение
from multiprocessing
нужен мультитрединг
0
0 / 0 / 0
Регистрация: 10.11.2019
Сообщений: 3
11.11.2019, 12:57  [ТС]
оно- пул(многопоточность, задействуется ЦП, но ничего не делает)
я знаю что урл, но как мне вставить туда 1 ссылку, а не сразу все

Добавлено через 2 минуты
Welemir1, незнаю пришло ли тебе уведомление и из-за этого ещё раз написал вот, не суди строго
0
 Аватар для m0nte-cr1st0
1043 / 578 / 242
Регистрация: 15.01.2019
Сообщений: 2,178
Записей в блоге: 1
11.11.2019, 12:59
Alex_python, цикл мб
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7391 / 4818 / 1246
Регистрация: 30.03.2015
Сообщений: 13,684
Записей в блоге: 29
11.11.2019, 13:04
Alex_python, повторяю -мультипроцессинг не нужен, начни с одного потока, потом добавишь пул мультитрединга (не мультипроцессинга!)

Цитата Сообщение от Alex_python Посмотреть сообщение
я знаю что урл, но как мне вставить туда 1 ссылку, а не сразу все
ты туда и вгоняешь 1 ссылку, а мап вот тут
Цитата Сообщение от Alex_python Посмотреть сообщение
map(parse, urls1)
будет поочередно подставлять ссылки из списка
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
11.11.2019, 13:04
Помогаю со студенческими работами здесь

Сделать многопоточный код из последовательного
Добрый день форумчане, есть код вычисления правила прямоугольников со средней точкой. Собственно, программа последовательна, а надо...

Как сделать, чтобы парсер переходил на нужные страницы пока есть нужный элемент
Здравствуйте, проблема заключается в том, что сайт не отдаёт кол-во пагинации, а только 3, когда на сайте их например 39. Но я заметила что...

Многопоточный парсер, как организовать?
Привет всем зашедшим. Вот такая задача есть. Организовать что-то вроде мнoгoпoтoчного пapсера. Который будет следить за определенной...

Многопоточный парсер сайтов: как обрабатывать javaScript
Здравствуйте! Есть задание написать парсер 3-х сайтов с извлечением определенной информации (для примера картинки). Каждый сайт должен...

Как преобразовать обычный CURL парсер в многопоточный
Есть парсер который использует библиотеки CURL и phpQuery. Он парсит данные с с сайта и сохраняет всё с .csv файл. Но проблема в том, что...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
SDL3 для Web (WebAssembly): Работа со звуком через SDL3_mixer
8Observer8 08.02.2026
Содержание блога Пошагово создадим проект для загрузки звукового файла и воспроизведения звука с помощью библиотеки SDL3_mixer. Звук будет воспроизводиться по клику мышки по холсту на Desktop и по. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru