С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
0 / 0 / 0
Регистрация: 07.12.2022
Сообщений: 9

Отимизация парсера на питоне

03.07.2024, 23:48. Показов 680. Ответов 6

Студворк — интернет-сервис помощи студентам
Привет, пишу парсер сайта https://stihi.ru/poems/list.html?topic=01. На этом сайте стихи разделены на основе даты публикации и их очень много. Я пытаюсь собрать все стихи за 2011. Вопрос: можно ли как-то отимизировать код так, чтобы парсинг проходил быстрее. Подскажите библиотеки либо методы для оптимизации парсера.
Заранее спасибо


Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
import requests
from bs4 import BeautifulSoup
 
url = 'https://stihi.ru/poems/list.html?topic=all&year=2011&month=01&day=1'
import requests
from bs4 import BeautifulSoup
import sqlite3
 
def create_links():
    links = []
    for m in range(1, 12):
        for d in range(1, 31):  # В каждом месяце 30 дней
            url = f'https://stihi.ru/poems/list.html?topic=all&year=2011&month={m}&day={d}'
            links.append(url)
    return links
 
all_links = create_links()
poems = []
 
for url in all_links:
    response_links = requests.get(url)
    soup = BeautifulSoup(response_links.content, 'html.parser')
    links = []
    for link in soup.find_all('a', class_='poemlink'):
        href = link.get('href')
        full_url = f"https://stihi.ru{href}"
        links.append(full_url)
 
    for i in links:
        response = requests.get(i)
        soup = BeautifulSoup(response.content, 'html.parser')
        title = soup.find('h1').text
        text = soup.find('div', class_='text').get_text(separator="\n").strip()
        author = soup.find('div', class_='titleauthor').get_text(separator="\n").strip()
        poems.append((title, author, text))
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
03.07.2024, 23:48
Ответы с готовыми решениями:

Отимизация Scriptlibов
Вот и всплыл Omh с очередной задачей, котоая ему не под силу. Разросся мой монстр (программулина для всего под лотусъ) до неприличных...

Как открыть файл на питоне, чтобы внутри содержимый код работал при открытии на питоне?
Хочу открыть файл, чтобы внутри код работал на питоне: >>> a = open(r'F:\python\py\Madi Khasenov.txt') >>> a.read() "x...

Цикл парсера
Всем привет, у меня проблема, я не могу понять как правильно сделать цикл для парсера, чтоб он доставал из сайта все совпадающие данные, а...

6
150 / 120 / 36
Регистрация: 01.11.2019
Сообщений: 425
04.07.2024, 13:28
Можно в несколько потоков запустить с помощью библиотеки threading.
0
Любознательный
 Аватар для YuS_2
7404 / 2254 / 360
Регистрация: 10.03.2016
Сообщений: 5,213
04.07.2024, 14:10
Цитата Сообщение от gtfg777 Посмотреть сообщение
все стихи за 2011
Цитата Сообщение от gtfg777 Посмотреть сообщение
их очень много
Кстати, у Вас не все попадают в выборку... помимо ссылок на каждый день, там есть ещё и отдельные страницы по каждому дню, которые у Вас никак не обрабатываются, т.е. в выборку попадает только первая страница каждого дня...
И чтобы корректно обрабатывались все дни, а не 11 "месяцев" по 30 дней (февраль, например?), лучше поработать с календарем:
Python
1
2
3
4
5
import calendar as cl
...
for m in range(1, 13):
    for d in range(1, cl.monthrange(2011, m)[1]+1):
...
0
2 / 1 / 1
Регистрация: 29.05.2024
Сообщений: 6
04.07.2024, 14:49
Для оптимизации вашего парсера вы можете использовать несколько подходов и библиотек. Вот некоторые из них:

1.Многопоточность: Используйте модуль `concurrent.futures` для параллельной обработки запросов. Это может значительно ускорить процесс парсинга, так как запросы будут выполняться одновременно, а не последовательно.

2.Асинхронный HTTP-клиент: Используйте асинхронные библиотеки, такие как `aiohttp`, для асинхронного выполнения HTTP-запросов. Это позволит вашему коду не блокироваться во время ожидания ответа от сервера.

3.Кэширование: Если вы парсите одни и те же страницы несколько раз, рассмотрите возможность кэширования ответов, чтобы избежать повторных запросов.

4.Более быстрые парсеры HTML: Вместо `html.parser` используйте `lxml` или `html5lib`, которые могут быть быстрее при обработке больших объемов HTML.

Вот пример кода с использованием многопоточности:

```python
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
 
def fetch_url(url):
    response = requests.get(url)
    return response.content
 
def parse_links(content):
    soup = BeautifulSoup(content, 'html.parser')
    links = [f"https://stihi.ru{link.get('href')}" for link in soup.find_all('a', class_='poemlink')]
    return links
 
def fetch_poem(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    title = soup.find('h1').text
    text = soup.find('div', class_='text').get_text(separator="\n").strip()
    author = soup.find('div', class_='titleauthor').get_text(separator="\n").strip()
    return title, author, text
 
def create_links():
    links = [f'https://stihi.ru/poems/list.html?topic=all&year=2011&month={m:02d}&day={d:02d}'
             for m in range(1, 13) for d in range(1, 32)]
    return links
 
all_links = create_links()
poems = []
 
with ThreadPoolExecutor(max_workers=10) as executor:
    contents = list(executor.map(fetch_url, all_links))
    poem_links = [link for content in contents for link in parse_links(content)]
    poems = list(executor.map(fetch_poem, poem_links))
 
print(poems)
```
Этот код использует `ThreadPoolExecutor` для параллельного скачивания и парсинга страниц.
0
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
04.07.2024, 15:18
lookat_me, чатжпт тут не в почете. Своей головой надо думать
0
2 / 1 / 1
Регистрация: 29.05.2024
Сообщений: 6
04.07.2024, 15:28
iSmokeJC Молодец правильно , теперь если кому захочешь позвонить не звони, а своими ногами сходи до того с кем хочешь поговорить и компьютер выброси, головой думай.
0
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
04.07.2024, 15:33
lookat_me, да уж лучше так, чем за счет ии пытаться за умного сойти.
3
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
04.07.2024, 15:33
Помогаю со студенческими работами здесь

Результат парсера
Я спарсил текст между <teg> и </teg> <teg> TEXT TEXT TEXT </teg> Спарсил в цикле,то есть все результаты.В итоге я получил...

Написание парсера
Требуется программист специализирующийся на написании парсеров. Задача достаточно простая, примерное ТЗ вышлю тем кто меня устроит. ICQ...

Скорость парсера.
В общем меня интересует только скорость. Как довести работу парсера до идеала? Какие факторы могут замедлять или должны ускорять, какие...

Написание парсера
В общем не так давно учу VB, и тут поставил себе задачу написать "разделитель" объясню кто не понял к примеру есть текстовик с ...

Настройка парсера C#
Помогите с настройкой парсера C# namespace Parser.Core.Habra { class HabraParser : IParser<string> { public...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и источниками (напряжения, ЭДС и тока). Найти токи и напряжения во всех элементах. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru