Отимизация парсера на питоне

@gtfg777 · Регистрация: 07.12.2022

Студворк — интернет-сервис помощи студентам

Привет, пишу парсер сайта https://stihi.ru/poems/list.html?topic=01. На этом сайте стихи разделены на основе даты публикации и их очень много. Я пытаюсь собрать все стихи за 2011. Вопрос: можно ли как-то отимизировать код так, чтобы парсинг проходил быстрее. Подскажите библиотеки либо методы для оптимизации парсера.
Заранее спасибо

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
import requests
from bs4 import BeautifulSoup
 
url = 'https://stihi.ru/poems/list.html?topic=all&year=2011&month=01&day=1'
import requests
from bs4 import BeautifulSoup
import sqlite3
 
def create_links():
    links = []
    for m in range(1, 12):
        for d in range(1, 31):  # В каждом месяце 30 дней
            url = f'https://stihi.ru/poems/list.html?topic=all&year=2011&month={m}&day={d}'
            links.append(url)
    return links
 
all_links = create_links()
poems = []
 
for url in all_links:
    response_links = requests.get(url)
    soup = BeautifulSoup(response_links.content, 'html.parser')
    links = []
    for link in soup.find_all('a', class_='poemlink'):
        href = link.get('href')
        full_url = f"https://stihi.ru{href}"
        links.append(full_url)
 
    for i in links:
        response = requests.get(i)
        soup = BeautifulSoup(response.content, 'html.parser')
        title = soup.find('h1').text
        text = soup.find('div', class_='text').get_text(separator="\n").strip()
        author = soup.find('div', class_='titleauthor').get_text(separator="\n").strip()
        poems.append((title, author, text))

@volkomorov · 04.07.2024, 13:28

Можно в несколько потоков запустить с помощью библиотеки threading.

YuS_2 · 04.07.2024, 14:10

Сообщение от gtfg777

все стихи за 2011

Сообщение от gtfg777

их очень много

Кстати, у Вас не все попадают в выборку... помимо ссылок на каждый день, там есть ещё и отдельные страницы по каждому дню, которые у Вас никак не обрабатываются, т.е. в выборку попадает только первая страница каждого дня...
И чтобы корректно обрабатывались все дни, а не 11 "месяцев" по 30 дней (февраль, например?), лучше поработать с календарем:

Python
1
2
3
4
5
import calendar as cl
...
for m in range(1, 13):
    for d in range(1, cl.monthrange(2011, m)[1]+1):
...

@lookat_me · 04.07.2024, 14:49

Для оптимизации вашего парсера вы можете использовать несколько подходов и библиотек. Вот некоторые из них:

1.Многопоточность: Используйте модуль `concurrent.futures` для параллельной обработки запросов. Это может значительно ускорить процесс парсинга, так как запросы будут выполняться одновременно, а не последовательно.

2.Асинхронный HTTP-клиент: Используйте асинхронные библиотеки, такие как `aiohttp`, для асинхронного выполнения HTTP-запросов. Это позволит вашему коду не блокироваться во время ожидания ответа от сервера.

3.Кэширование: Если вы парсите одни и те же страницы несколько раз, рассмотрите возможность кэширования ответов, чтобы избежать повторных запросов.

4.Более быстрые парсеры HTML: Вместо `html.parser` используйте `lxml` или `html5lib`, которые могут быть быстрее при обработке больших объемов HTML.

Вот пример кода с использованием многопоточности:

```python

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
 
def fetch_url(url):
    response = requests.get(url)
    return response.content
 
def parse_links(content):
    soup = BeautifulSoup(content, 'html.parser')
    links = [f"https://stihi.ru{link.get('href')}" for link in soup.find_all('a', class_='poemlink')]
    return links
 
def fetch_poem(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    title = soup.find('h1').text
    text = soup.find('div', class_='text').get_text(separator="\n").strip()
    author = soup.find('div', class_='titleauthor').get_text(separator="\n").strip()
    return title, author, text
 
def create_links():
    links = [f'https://stihi.ru/poems/list.html?topic=all&year=2011&month={m:02d}&day={d:02d}'
             for m in range(1, 13) for d in range(1, 32)]
    return links
 
all_links = create_links()
poems = []
 
with ThreadPoolExecutor(max_workers=10) as executor:
    contents = list(executor.map(fetch_url, all_links))
    poem_links = [link for content in contents for link in parse_links(content)]
    poems = list(executor.map(fetch_poem, poem_links))
 
print(poems)
```

Этот код использует `ThreadPoolExecutor` для параллельного скачивания и парсинга страниц.

@iSmokeJC · 04.07.2024, 15:18

lookat_me, чатжпт тут не в почете. Своей головой надо думать

@lookat_me · 04.07.2024, 15:28

iSmokeJC Молодец правильно , теперь если кому захочешь позвонить не звони, а своими ногами сходи до того с кем хочешь поговорить и компьютер выброси, головой думай.

@iSmokeJC · 04.07.2024, 15:33

lookat_me, да уж лучше так, чем за счет ии пытаться за умного сойти.

Новые блоги и статьи Все статьи Все блоги /
сукцессия микоризы: основная теория в виде двух уравнений. anaschu 11.01.2026 https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/	WordPad для Windows 11 Jel 10.01.2026 WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .	Classic Notepad for Windows 11 Jel 10.01.2026 Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .	Почему дизайн решает? Neotwalker 09.01.2026 В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3 anaschu 06.01.2026 aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114	Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ФедосеевПавел 06.01.2026 Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .	Модель микоризы: классовый агентный подход 2 anaschu 06.01.2026 репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .	Расчёт токов в цепи постоянного тока igorrr37 05.01.2026 / * Дана цепь постоянного тока с сопротивлениями и источниками (напряжения, ЭДС и тока). Найти токи и напряжения во всех элементах. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и. . .

@volkomorov 150 / 120 / 36 Регистрация: 01.11.2019 Сообщений: 425
	04.07.2024, 13:28
	Можно в несколько потоков запустить с помощью библиотеки threading. 0

@iSmokeJC 19530 / 11067 / 2931 Регистрация: 21.10.2017 Сообщений: 23,294
	04.07.2024, 15:18
	lookat_me, чатжпт тут не в почете. Своей головой надо думать 0

@lookat_me 2 / 1 / 1 Регистрация: 29.05.2024 Сообщений: 6
	04.07.2024, 15:28
	iSmokeJC Молодец правильно , теперь если кому захочешь позвонить не звони, а своими ногами сходи до того с кем хочешь поговорить и компьютер выброси, головой думай. 0

@iSmokeJC 19530 / 11067 / 2931 Регистрация: 21.10.2017 Сообщений: 23,294
	04.07.2024, 15:33
	lookat_me, да уж лучше так, чем за счет ии пытаться за умного сойти. 3