Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.56/18: Рейтинг темы: голосов - 18, средняя оценка - 4.56
0 / 0 / 0
Регистрация: 16.08.2017
Сообщений: 2

Парсинг сайта

16.08.2017, 12:54. Показов 3295. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день. Возникла проблема с написанием рекурсивного парсинга страниц сайта.

Суть такова, написан код, который парсит только страницу, которую я указал. Помогите разобраться как реализовать, чтобы можно было извлечь абсолютно все ссылки с сайта

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import requests
from bs4 import BeautifulSoup, SoupStrainer
from itertools import groupby
class TRaCAse:
    url='http://corp.fastsite.ru/'
    file = open('links.txt', 'w')
    req = requests.get(url)
    soup = BeautifulSoup(req.content, 'html.parser', parse_only=SoupStrainer('a'))
    list_1= ([link['href'] for link in soup if link.has_attr('href')])
    list_1 = list(set(list_1))
    deleted = 0
    for i in range(len(list_1)):
        if "https" not in list_1[i - deleted] :
            if "http" not in list_1[i - deleted] :
                if "www" not in list_1[i - deleted] :
                    del list_1[i - deleted]
                    deleted += 1
    ##удаление повтор. ссылок
    new_t = [el for el, _ in groupby(list_1)]
    string_x = ''.join(str(e) + '\n' for e in new_t)
    file.write(string_x)
    file.close()
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
16.08.2017, 12:54
Ответы с готовыми решениями:

Парсинг сайта
У меня есть парсер цен AliExpress, он на селениуме, проблема в том что он медленный, хотелось более быстрой работы, bs4 не видит нужные...

Парсинг сайта
Добрый день! Я хочу найти все изменения статьи на википедии за определенный период, допустим за 2018 год. Все даты изменений указаны под...

парсинг сайта
Всем доброй ночи, вопрос следующий. Есть сайт, с него получаю таблицу вида, но в excel выгружаю без шапки id дата тема информация ...

1
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
16.08.2017, 14:54
Слишком жирный код для задачи извлечения ссылок. Достаточно двух строчек
(bs4 тут вообще как пятое колесо):

Python
1
2
3
4
5
6
7
8
9
10
11
12
url = 'http://corp.fastsite.ru/'
resp = requests.get(url)
tree = lxml.html.fromstring(resp.text)
 
xpath = './/a[(starts-with(@href,"http") or starts-with(@href,"https")) and contains(@href,"www")]/@href'
links = set(tree.xpath(xpath)) # set удалит дубликаты
print(links)
 
# или так
links = tree.xpath('.//a[@href]/@href')
links = set([href for href in links if re.match(r'(https?)://(?=www)',href)])
print(links)
----------------
Что касается
Цитата Сообщение от paololka Посмотреть сообщение
извлечь абсолютно все ссылки с сайта
то думаю для вас не будет неожиданностью, если вам ответят, что нужно писать "паука" с достаточно сложной логикой, который будет рекурсивно извлекать ссылки, переходить по ним, помечать ссылки как пройденные, извлекать новые ссылки, проверять что они еще не пройденные, переходить по ним, помечать как пройденные и так пока ссылки не закончатся.
И он должен уметь не попадать в циклические ссылки, иначе ему грозит вечно блуждать по страницам этого сайта :-)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
16.08.2017, 14:54
Помогаю со студенческими работами здесь

Парсинг сайта
Вообщем нужно спарсить сайт https://tarkov-market.com/. Я парсю первые 10 элементов в таблице, но потом нужно подгружать...

Парсинг сайта
Всем привет. Пытаюсь получить данные с сайта, flashscore. Конкретно нужно следующее - получить данные с главной страницы о каждом матче,...

Парсинг сайта
Здравствуйте! Подскажите, пожалуйста, как достать с сайта дату, только, чтобы не всю, а сначало число, потом месяц, и потом год? С помощью...

Парсинг сайта
Добрый день, возник вопрос, нужно спарсить с сайта цены и название товаров, при парсинге берётся только первый div, даже через перебор не...

Парсинг сайта с bs4
Здравствуйте! Пытаюсь спарсить один сайт, но выводит постоянно это: (Скриншот) В чем может быть проблема?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru