Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/4: Рейтинг темы: голосов - 4, средняя оценка - 4.75
0 / 0 / 0
Регистрация: 10.04.2023
Сообщений: 1

Причина медленного асинхронного парсера?

11.04.2023, 00:35. Показов 1042. Ответов 1

Студворк — интернет-сервис помощи студентам
Здравствуйте, есть был парсер на питоне который я переписал на асинхрон, но ожидаемый прирост скорости не совпал с действительностью, я подозреваю что проблема в том что само получение страницы стопит поток, но точно сказать не могу. Есть идеи как данный код можно улучшить/дописать/переписать/выкинуть и забыть как страшный сон?
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
import time
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
import asyncio
import aiohttp
import requests
import xlsxwriter
import tqdm
import re
import timeit
 
start=time.time()
header = {'User-Agent':str(UserAgent().chrome)}
 
 
 
JoJo_dada = []
async def tasks_list_creation():   
    url = "https://www.vardex.ru/e-juice.html?PAGEN_1=1"
    async with aiohttp.ClientSession() as session:
        tasks = []
        resp = await session.get(url=url, headers=header)
        soup = BeautifulSoup(await resp.text(), 'lxml')
        pages = int(soup.find(class_="vardex-page-dots").find_next().text)
        for page in tqdm.tqdm(range(1, pages+1), desc='Pages'):
            url_ = f"https://www.vardex.ru/e-juice.html?PAGEN_1={page}"
            resp_ = await session.get(url=url_, headers=header)
            soup_ = BeautifulSoup(await resp_.text(), 'lxml')
            data_ = soup_.find_all("li", class_="b_product_list__item")
            for items in data_:
                href = items.find("a").get("href")
                task = asyncio.create_task(tasks_do(session, href))
                tasks.append(task)
        await asyncio.gather(*tasks)
 
async def tasks_do(session, href):
    resp1 = await session.get(url=href, headers=header)
    try:
        soup1 = BeautifulSoup(await resp1.text(), 'lxml')
        try: name = soup1.find("div", class_="b_product_detail__title").text
        except AttributeError: name = "Не указано"
        try: price = int(soup1.find("div", class_="b_product_detail__price").text.replace(" ", "").replace("руб.",""))
        except AttributeError: price = "Не указано" 
        try: taste = soup1.find("div", class_="name", string="Группа вкусов:").find_next().text.
        except AttributeError: taste = "Не указано"
        try: pgvg = soup1.find("div", class_="name", string="PG/VG:").find_next().text
        except AttributeError: pgvg = "Не указано" 
        try: name = soup1.find("div", class_="b_product_detail__title").text
        except AttributeError: name = "Не указано"   
        try: country = soup1.find("div", class_="name", string="Страна:").find_next().text
        except AttributeError: country = "Не указано"       
    
        #print(f"Жижа {name}    стоит  {price}   производится  в {country}  ПГВГ: {pgvg}")
        JoJo_dada.append({
                "name": name,
                "price": price,
                "taste": taste,
                "country": country,
                "pgvg": pgvg,
                "link": href
            }
        )
    except UnicodeDecodeError: print("Ошибка декодирования юникода:   "+href)
def main():
    asyncio.run(tasks_list_creation())
    
    book = xlsxwriter.Workbook(r"C:\Users\Vikt0r\Desktop\Projecrts\PyJiJaParse_Async\ss1.xlsx")
    page = book.add_worksheet("Товарчик")
    page.set_column("A:A", 40)
    page.set_column("B:B", 10)
    page.set_column("C:C", 30)
    page.set_column("D:D", 30)
    page.set_column("E:E", 10)
    page.set_column("F:F", 60)
    # Записываем заголовки в первую строку
    header = ["Name", "Price", "Taste", "Country", "PG/VG", "Link"]
    for i, h in enumerate(header):
        page.write(0, i, h)
 
# Записываем данные в последующие строки
    for i, data in enumerate(JoJo_dada):
        page.write(i+1, 0, data["name"])
        page.write(i+1, 1, data["price"])
        page.write(i+1, 2, data["taste"])
        page.write(i+1, 3, data["country"])
        page.write(i+1, 4, data["pgvg"])
        page.write(i+1, 5, data["link"])
    # Сохраняем и закрываем файл
    book.close()
    print(f"Затрачено времени: {round(time.time() - start, 4)} секунд")
 
if __name__ == '__main__':
    main()
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
11.04.2023, 00:35
Ответы с готовыми решениями:

Причина медленного Создания БД
Объясните пожалуйста. Создаю БД средсвами DataBase configuration assistent, Oracle начинает создавать бд, но процесс этот занимает...

Имитация медленного соединения
Суть вопроса в следующем: разрабатываю программу для обращения к СУБД по сети. Есть ли какой нибудь способ имитировать медленное соединение...

Подскажите по оптимизации медленного запроса
Здравствуйте! Есть у меня MS SQL Server, в таблицу которого данные складываются. Таблица имеет следующий вид: ДатаВремя Х1 Х2 Х3...

1
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,667
Записей в блоге: 29
11.04.2023, 07:59
Лучший ответ Сообщение было отмечено cascadBIT как решение

Решение

Цитата Сообщение от cascadBIT Посмотреть сообщение
ожидаемый прирост скорости
в связи с чем он ожидался? ранее парсер был просто последовательным в 1 поток?

сам парсинг блокирующий и пока он выполняется -все корутины ждут. Можно разделить задачу на кусочки - асинкио пачкой корутин пусть парсит страницы и кидает их содержимое в некую очередь. В отдельном потоке или процессе из очереди достаются эти данные и парсятся, а результаты куда то собирать, может в результирующую очередь.
Скажем если у тебя 8 ядер то можно стартануть 6 воркеров-процессов, которые ждут текстов для парсинга, а в основном потоке асинкио занято чисто тем что бегает по страничкам и собирает ответы в очередь(не парсит содержимое)
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
11.04.2023, 07:59
Помогаю со студенческими работами здесь

Как избавиться от медленного курсора
Здравствуйте, господа! В рамках большой статистической модели есть код, который рассчитывает несколько параметров для каждой...

В чём причина причина в бд или в коде?
Вывожу данные в datagridview,видны только цифры во всех таблицах.Может кто сталкивался? Испытал версии Access 2003 mdb формата и 2007...

Реальный пример медленного освобождения памяти
Как-то в одной из первых своих тем на этом сайте писал про проблему с медленным освобождением памяти. Сконструировал пример этой...

Эффект медленного затухания для картинки
Как сделать эффект затухания. К примеру: Компонент image в нем картинка. Нужно, чтобы она при клике медленно исчезала. Примерно за 1 сек.

Эмуляция работы быстрого и медленного клиента
Всем доброго времени суток! Очень надо эмулировать работу быстрого/медленного клиента. Кто-нибудь знает, как программно можно изменять...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
влияние грибов на сукцессию
anaschu 26.01.2026
Бифуркационные изменения массы гриба происходят тогда, когда мы уменьшаем массу компоста в 10 раз, а скорость прироста биомассы уменьшаем в три раза. Скорость прироста биомассы может уменьшаться за. . .
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip" Извлеките архив и вы увидите. . .
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д. Сборка примера Скачайте. . .
Использование SDL3-callbacks вместо функции main() на Android, Desktop и WebAssembly
8Observer8 24.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru