Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
p
 Аватар для hasker2
84 / 44 / 16
Регистрация: 15.01.2021
Сообщений: 433

Кравлер на python останавливаеться

06.06.2024, 20:58. Показов 410. Ответов 0

Студворк — интернет-сервис помощи студентам
Делаю кравлер вебсайтов на python
Суть - делает запрос на сайт, сохраняет текст страницы в базу и ищет на странице ссылки на другие страницы

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
async def get_page(url, semaphore, n = 1):
    async with semaphore:
        ua = UserAgent()
        async with aiohttp.ClientSession() as session:
            async with session.get(url, headers={"user-agent": ua.chrome}, timeout=aiohttp.ClientTimeout(10)) as response:
                try:
                    html = await response.text()
                    l = crawl(html, f"{url.split('//', 1)[0]}//{urlparse(url).netloc}") # get all links on page
                    #print(l)
                    unique = [i["id"] for i in await get_uniques(l.urls)] # weed out links that are already in the database
                    #print(unique)
                    await add_page(url, html) # add current page to the database
                    if n+1 <= 3: # if depth is not maximum
                        tasks = [get_page(i, semaphore, n+1) for i in unique] # making the same for each link on current page
                        await asyncio.gather(*tasks)
 
                except UnicodeDecodeError as e:
                    print(e)
async def main():
    print("start")
    sema = asyncio.Semaphore(3)
    start_url = 'fist url'
    await get_page(start_url, sema)
 
if __name__ == "__main__":
    asyncio.set_event_loop_policy(asyncio.WindowsSelectorEventLoopPolicy())
    asyncio.run(main())
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
async def add_page(link, content):
    """add page to the database"""
    con = await asyncpg.connect(user=user, password=password, database=database, host=host, timeout=10)
    try:
        await con.execute(
            'INSERT INTO indexed_pages ("link", "content") VALUES ($1, $2)',
            link, content
        )
        print("added")
    except asyncpg.exceptions.UniqueViolationError:
        print(f"Page with link {link} is already exists")
    finally:
        await con.close()
 
async def get_uniques(array: list):
    """get array of links that are not in the database"""
    con = await asyncpg.connect(user=user, password=password, database=database, host=host, timeout=10)
    try:
        return await con.fetch(
            """select *
from unnest($1::text[]) as t(id)
except
select id
from (select link from indexed_pages) as the_table(id)""", array
        )
    finally:
        await con.close()
решил использовать рекурсию, и, чтобы не делать 1000 запросов одновременно добавил semaphore
но когда оно отработало первую очередь запросов то програмап росто застывает и ничего дальше не делает

Code
1
2
3
4
5
6
7
8
start
request has been made
added
request has been made
request has been made
request has been made
added
added
сделало запрос 3 раза, так как asyncio.Semaphore(3) == 3
если сделать 10, то сделает 10 и после этого застынет (не завершиться)
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
06.06.2024, 20:58
Ответы с готовыми решениями:

Анализ LinkedIn: кравлер, граббер
Нужна система, позволяющая выполнять поиск пользователей LinkedIn по заданным ключевым словам. Meet Alfred, Dux Soup — не то. ...

Поток жидкости останавливаеться на 250-ом кадре
Если в разделе cache продлить симуляцию жидкости то поток (inflow) останавливаеться на 250-ом кадре, но жидкость далее двигаеться, как...

Цикл производит только один перебор и останавливаеться
Доброго времени суток, Кто подскажет почему цикл выплоняеться только один раз? var premium = document.getElementById('premium'); ...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
06.06.2024, 20:58
Помогаю со студенческими работами здесь

Видео с iframe в модальном окне после закрытия не останавливаеться
Видео с iframe в модальном окне после закрытия не останавливаеться. Если ставишь старый код через object - закрываеться, но при этом ослик...

СМА Ardo TL105S S/N 20053600351-012980027-04, Останавливаеться на полоскании
Добрый вечер! Помогите пожалуйста, проблема такова: Стирку проходит , сливает , индикатор переключаеться на полоскание, набирает...

Python - момент истины. Python - как оружие возмездие против системы
Какие модули в python мне нужны для взлома баз данных? Перехвата информации? Внедрения в систему? Добавлено через 10 минут Хочу...

Software Developer Python/Data or ready to improve Python (Санкт-Петербург)
We are looking for experienced server-side developers who are interested in improving their skills and knowledge in Python and ETL/Data. We...

Cx_freeze python error in main script как исправить- Python
Пытался создать из .py .exe , но при запуске .exe получаю ошибку вот код setup.py from cx_Freeze import setup, Executable import os ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten
8Observer8 27.02.2026
Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru