Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
1 / 1 / 0
Регистрация: 04.03.2018
Сообщений: 11

Multiproccesing в парсинге сайта

08.06.2022, 13:52. Показов 573. Ответов 2

Студворк — интернет-сервис помощи студентам
Доброго времени суток, господа!
Требуется помощь в задании: нужно написать многопоточный/многопроцессный парсер сайта, а точнее, построить его карту. Метод моего решения: построил небинарное дерево, корнем которого является главная страница, а детьми внутренние ссылки, например: корень - https://abc.ru, дети - /d/, /e/, /f/, и у каждой из дочерних вершин могут быть свои дети. Обойти такую структуру мне удалось с помощью очереди. Вопрос: как можно сюда добавить многопроцессность/многопоточность?
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
    
    def __init__(self, text = None, parent = None):
        self.text = text
        self.child = []
        self.par = parent
 
    def runner(self):
        q = Queue()
        q.put(self)
        already_done = set()
        while not q.empty():
            p = q.get()
            if p.text not in already_done:
                already_done.add(p.text)
                print(p.text)
                p.create_map()
            for i in p.child: q.put(i)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
08.06.2022, 13:52
Ответы с готовыми решениями:

Ошибка 403 при парсинге сайта
Я новичок, пытаюсь разобраться с парсингом, заодно решил помочь жене, она попросила вытянуть кое-какую информацию с сайта...

Проблема тегами при парсинге сайта
у меня есть сайт matol.kz и я создаю бота который будет уведомлять при появлении новых олимпиад в чем заключается проблема? я...

Ошибка при парсинге таблицы с сайта
Здравствуйте! Пытаюсь парсить таблицу с сайта: https://coinmarketcap.com/ Для начала хотел получить имена криптовалют из таблицы с...

2
243 / 178 / 73
Регистрация: 17.10.2018
Сообщений: 749
09.06.2022, 09:48
Например, парсинг каждой новой ветки запускать в отдельном потоке. От корня отходит три ноды - запускаем три потока и т.д.
0
Модератор
Эксперт Python
 Аватар для Fudthhh
2695 / 1601 / 513
Регистрация: 21.02.2017
Сообщений: 4,210
Записей в блоге: 1
09.06.2022, 13:40
Семен Семены4,
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import time
import random
import threading
 
 
 
class Parser(threading.Thread):
 
    def __init__(self, url: str) -> None:
        threading.Thread.__init__(self, name=url)
        self.url = url
 
    def run(self) -> None:
        time.sleep(random.randint(1, 5))
        print(f"Url: [{self.url}] is parsed")
        for i in range(random.randint(0, 2)):
            Parser(f"{self.url}/{i}").start()
 
 
Parser("https://www.parser.ru").start()
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Url: [https://www.parser.ru] is parsed
Url: [https://www.parser.ru/0] is parsed
Url: [https://www.parser.ru/0/0] is parsed
Url: [https://www.parser.ru/0/0/0] is parsed
Url: [https://www.parser.ru/0/0/0/0] is parsed
Url: [https://www.parser.ru/0/0/0/1] is parsed
Url: [https://www.parser.ru/0/0/0/0/1] is parsed
Url: [https://www.parser.ru/0/0/0/0/0] is parsed
Url: [https://www.parser.ru/0/0/0/0/1/0] is parsed
Url: [https://www.parser.ru/0/0/0/0/1/1] is parsed
Url: [https://www.parser.ru/0/0/0/0/1/0/0] is parsed
Url: [https://www.parser.ru/0/0/0/0/1/0/1] is parsed
Url: [https://www.parser.ru/0/0/0/0/1/0/0/0] is parsed
Url: [https://www.parser.ru/0/0/0/0/1/0/1/0] is parsed
Url: [https://www.parser.ru/0/0/0/0/1/0/0/0/0] is parsed
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
09.06.2022, 13:40
Помогаю со студенческими работами здесь

Не создается файл с данными при парсинге сайта
#!/usr/bin/env python3.6 # _*_ coding:utf-8 _*_ import requests from bs4 import BeautifulSoup import csv def get_html(url): ...

Как удалить тег при парсинге сайта
при парсинге сайта funpay, то что спарсилось пишется в ткст файл и мне нужно что бы парсилось без "<div...

Получить все элементы одного класса при парсинге сайта
Доброго времени суток. Проблема заключается в том что при парсинге сайта я получаю только последний элемент, хотя они мне нужны все. ...

При парсинге сайта получается вывести только один абзац
Есть такой код: import requests from bs4 import BeautifulSoup HEADER = { 'user-agent': 'он есть', 'accept': '*/*'} ...

Перевод изображения в черно-белое и multiproccesing
Здравствуйте, форумчане, нужна ваша помощь. Пытаюсь распараллелить данный код (в начале с помощь библиотеки PIL переводим изображение в...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru