1 / 1 / 0
Регистрация: 27.03.2020
Сообщений: 18

Парсер ссылки которая ведет на другой сайт

07.06.2020, 09:21. Показов 1469. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Привет всем.
Код пишу на Python 3.7. import requests и import BeautifulSoup

Проблема: Не могу спарсить прямую ссылку.
В исходнике сайта, ссылка выглядит так: site.ru/visite/12345 которая ведет совсем на другой сайт site1.ru/
Как я понял, эта ссылка переделывается с помощью js.
Не знаю, есть ли смысл показывать мой код, так как я ничего не написал, что с этим связанно.
Покажу исходник сайта:
HTML5
1
2
3
4
5
6
7
8
9
10
dash bRad--a"><input
            class="lbox--v-4 flex--width-calc-fix flex--grow-1 overflow--ellipsis width--all-12 hAlign--all-c text--color-charcoal text--b btn--mini clickable"
            value="PBLS200"
            title="Скопировать код"
            readonly data-handler="copy-to-clipboard ocular" data-copy-to-clipboard='{"input":"$self"}' data-ocular='{"event":"thread_copy_voucher_code","data":null}'/><button class="hide--copy-command-off height--all-full clickable space--h-2 space--mr-half bg--color-brandPrimary voucher-codeCopyButton bRad--a"><span
                    class="box--all-i vAlign--all-m" data-handler="copy-to-clipboard ocular" data-copy-to-clipboard='{"input":".js-voucherCode/input"}' data-ocular='{"event":"thread_copy_voucher_code","data":null}'><svg width="22px" height="22px" class="icon icon--scissors text--color-white"><use xlink:href="/assets/img/ico_3514a.svg#scissors"></use></svg></span></button></div></div></div><div class="width--fromW2-6 space--fromW2-r-1 space--t-1 space--fromW2-t-0"><a
        class="cept-vcb width--all-12 boxAlign-jc--all-c btn btn--mini btn--mode-primary"
        href="https://www.site.ru/visite/12345"
        target="_blank"
        rel="nofollow noopener"
Думаю, может можно как-то перейти по этой ссылке и там спарсить уже настоящую ссылку.


Простите пожалуйста, если что-то не указал или не уточнил, так как в этом деле новичок и этот код пишу для практики. По этой же причине, прошу ответь более конкретно, ибо мне кажется, что этот вопрос уж очень простой, что даже в инете ответа не нашел. А еще у меня боязнь большого кода...
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
07.06.2020, 09:21
Ответы с готовыми решениями:

При нажатии на ссылки открывается реклама/любой другой сайт с рекламой вместо требуемого сайта
в браузерах Хром и Эксплоер при нажатии на ссылки открываются рекламные страницы, всплывающие окна

При нажатии на ссылки почти всегда открывается реклама/любой другой сайт с рекламой вместо требуемого сайта
Здравствуйте, ищу помощь... При нажатии на ссылки почти всегда открывается реклама/любой другой сайт с рекламой вместо требуемого сайта....

Вирус, который ведет на сайт
Столкнулся с вирусом и не могу его победить. Пробовал чистить все Авастом, потом скачал одноразовый Касперский и одноразовый Есет. Ничего...

2
 Аватар для Matrix3007
198 / 164 / 41
Регистрация: 13.05.2019
Сообщений: 844
10.06.2020, 23:55
Что такое "спарсить ссылку"?
Если ведёт на другой сайт, значит, там перенаправление стоит.
0
0 / 0 / 0
Регистрация: 17.06.2020
Сообщений: 7
18.06.2020, 02:36
для небольшого кода возьми scrapy
где:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
import scrapy
from scrapy import Request
 
 
class MySpider(scrapy.Spider):
    name = "имя паука"
 
    def start_requests(self):  
        urls = [
        "https://xxx",  # страница с которой все начнется
        ]
 
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse) # передаст url в работу
 
    def parse(self, response):
        name = response.css('.class a::attr(href)').getall() # вытащит hreh  для перехода( там поэксперементируешь в shell)
        for name1 in name:
            link = response.urljoin(name1)
            yield Request(url=link, callback=self.parse_link) # передаст следующий url в функцию ниже (используй как шаблон если нужно глубже)
 
        next_link = response.css('.paginator a::attr(href)').get() # если встретится пагинатор цепляй такую комбинацию
        if next_link:
            next_link = response.urljoin(next_link)
            yield Request(next_link, callback=self.parse) #  возвращает паука наследующую страницу и так до самой последней
 
    def parse_link(self, response):   #  ну а тут уже финита ля комедия, собираем данные с целевой страницы
        yield{
                ...
                'имя': response.css('.class a::text').re('[\w]+[\w]', '',),[ASM][/ASM] # можно через .get() или getall() ну или через регулярные  типа как здесь ( если шлака много)
                ...
 
            }
и поставь на хром SelectorGadget (бывает помогает посмотреть быстренько xpath или css)
если нужно сразу в csv то паука запускай так (если из проекта) scrapy crawl имяпаука -o имяфайлаi.csv
если он у тебя без проекта scrapy runspider имяфайлапаука.py -o имяфайлаi.csv

... как-то так, вроде ничего не забыл

Добавлено через 12 минут
ой, чет не вдуплил сразу у тебя js ...
ну ниче .. тут глянь
вроде понятно все написано
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
18.06.2020, 02:36
Помогаю со студенческими работами здесь

Сайт после 5 секунд заходит на другой сайт (взломали сайт)
Когда я открою свое сайт он после 5 секунд заходит на другой сайт (взломали сайт) там написано что взломали турецкие хакеры.. Как лечить...

Внутренняя ссылка на другой странице не ведет на нужный блок
Привет, Проблема с внешней ссылкой не другую страницу из Меню. Код со страницы site.ru/page.html &lt;a...

Парсер сайта. Ссылки
Доброе время суток. Подскажите пожалуйста, как получить с сайта текст ссылки и саму ссылку?

Программа, работающая с Oracle, на другой машине ведет себя странно
Здравствуйте! Такая проблема. Написала маленькое приложение на C# для работы с Oraclом. На моем компьютере, на котором она собственно и...

Программа которая ведет диалог с оператором
Добрый день. Такая проблема, никак не могу разобраться с программой на assemblere. (Программа ведет диалог с оператором: распознает не...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Опции темы

Новые блоги и статьи
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru