Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.50/6: Рейтинг темы: голосов - 6, средняя оценка - 4.50
0 / 0 / 0
Регистрация: 15.03.2022
Сообщений: 2

Вэб скраппинг

15.03.2022, 20:58. Показов 1284. Ответов 2

Студворк — интернет-сервис помощи студентам
Доброго времени суток. Я начинающий программист, потихоньку учу Python, и вот мне дали выполнить один проект по вэб скрапингу. Я его конечно не смог выполнить потому что много чего я не знаю, но во время выполнения кое чему и научился. У меня проблема была вот в чем, я пытался скачать файл с помощью requests, но она возвращает ошибку 403. Вто ссылка - https://export.finam.ru/export... atf=5&at=1
Эта ссылка напрямую на файл, то есть после открытия в браузере сразу скачивает файл. Мне нужно было чтобы этот файл скачивался после запуска программы.
P.S. Я первый раз пишу на форуме, так что заранее извиняюсь если что не так сделал или написал.
Вот и соответственно код:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import requests
 
datef = input()
datet = input()
date1 = datef.split('.')
date2 = datet.split('.')
dname = 'GAZP_' + ''.join(date1) + '_' + ''.join(date2)
df, mf, yf = str(int(date1[0])), str(int(date1[1]) - 1), str(int(date1[2]))
dt, mt, yt = str(int(date2[0])), str(int(date2[1]) - 1), str(int(date2[2]))
if int(mf) > 0 and int(mt) > 0:
    link = f'https://export.finam.ru/export9.out?market=1&em=16842&token=03AGdBq27KzDqGVL-9B2Q2r_tQiybCDuWTuLq-gkPpoai5dFx15BwXqE4uOWnpJQm8of50T1y7pWfPN8KoRpEjkFSyAi66DypvUi6Vx9MFZ8FpMVTAKBS7a-VekaG1gTYlwADG1aqB8Kf0bt1hAsOdp58p5cdSRV-tNFw89Dk6YwH6Ux6FXwKi8UkktyZoYYy1fFF9l3lix1jPg5cTNT4d2aMB9do8zokxJYDTonMqSFsJZw2Ql1L8KW7unlzOAxyNV2Nxk9wjD5RcWxYRNp0ro0xBeKRQUC_6nKfYcHTuMjdtegUf7gDZVI7VKV5aztBgX7glLjI2z3Yl8Ex1hYcqkQpYR7vJHUYCu0WK22icraLdbrNrQ7ZiUIdsNrx-JNnAWmpjfMYuJlbGR09jFoKeea3KgsMuV21csA8x9iQ0teG8pXARk0DOljYy9ojuikXbWOqB5mYqLK6k0tN1nXHz2ogLtmXRwi1CDA&code=GAZP&apply=0&' \
           f'df={df}&mf={mf}&yf={yf}&from={datef}&dt={dt}&mt={mt}&yt={yt}&to={datet}&p=8&f={dname}&e=.csv&cn=GAZP&dtf=1&tmf=1&MSOR=1&mstime=on&mstimever=1&sep=1&sep2=1&datf=5&at=1 '
    print(link)
else:
    mf = '12'
    mt = '12'
    link = f'https://export.finam.ru/export9.out?market=1&em=16842&token=03AGdBq27KzDqGVL-9B2Q2r_tQiybCDuWTuLq-gkPpoai5dFx15BwXqE4uOWnpJQm8of50T1y7pWfPN8KoRpEjkFSyAi66DypvUi6Vx9MFZ8FpMVTAKBS7a-VekaG1gTYlwADG1aqB8Kf0bt1hAsOdp58p5cdSRV-tNFw89Dk6YwH6Ux6FXwKi8UkktyZoYYy1fFF9l3lix1jPg5cTNT4d2aMB9do8zokxJYDTonMqSFsJZw2Ql1L8KW7unlzOAxyNV2Nxk9wjD5RcWxYRNp0ro0xBeKRQUC_6nKfYcHTuMjdtegUf7gDZVI7VKV5aztBgX7glLjI2z3Yl8Ex1hYcqkQpYR7vJHUYCu0WK22icraLdbrNrQ7ZiUIdsNrx-JNnAWmpjfMYuJlbGR09jFoKeea3KgsMuV21csA8x9iQ0teG8pXARk0DOljYy9ojuikXbWOqB5mYqLK6k0tN1nXHz2ogLtmXRwi1CDA&code=GAZP&apply=0&' \
           f'df={df}&mf={mf}&yf={yf}&from={datef}&dt={dt}&mt={mt}&yt={yt}&to={datet}&p=8&f={dname}&e=.csv&cn=GAZP&dtf=1&tmf=1&MSOR=1&mstime=on&mstimever=1&sep=1&sep2=1&datf=5&at=1 '
r = requests.get(link, allow_redirects=True)
print(r.status_code)
filename = 'GAZP.csv'
open(filename, 'wb').write(r.content)
Прошу помочь понять что за ошибка 403 и как ее исправить, заранее большое спасибо!
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
15.03.2022, 20:58
Ответы с готовыми решениями:

Скраппинг сайта
Есть вот такой сайт http://www.columbia.edu/~fdc/sample.html Нужно реализовать программу, которая получает список всех подзаголовков...

Авторизация на вэб сервере
Не кидайтесь тапками) только начинаю в Python client = Client('http://my_server/test/ws/ws1.1cws', wsse=UsernameToken('login',...

Код позволяющий распознавать лица в реальном времени через вэб-камеру
Здравствуйте, я искал код позволяющий мне распознавать лица в реальном времени через вэб-камеру, и я нашёл такой код. import numpy as...

2
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
15.03.2022, 22:45
Лучший ответ Сообщение было отмечено MrBlind как решение

Решение

Цитата Сообщение от MrBlind Посмотреть сообщение
Вто ссылка
Сама по себе ссылка может быть бесполезна.

403 это Forbidden. То есть сайт запретил тебе обращаться по этому адресу (к этому ресурсу).
Почему запретил? Потому что просто ссылки ему мало.
Почему мало? Потому что нужны еще http заголовки и, возможно, куки.
Потому что он понял что ты бот, а не человек.

В общем скраппинг это очень сложно. И изучать в первую очередь нужно не язык, а технологии.
Сколько книг по стеку TCP-IP ты прочитал?
Как работает HTTP протокол?
Как устроены сайты?
Что такое AJAX?
Что такое API?
Почему request возвращает совсем не то, что ты видишь в браузере?
Как узнать API сайта?
Что такое инструменты разработчика в браузере?

Без всего этого import requests абсолютно бесполезен.
1
0 / 0 / 0
Регистрация: 15.03.2022
Сообщений: 2
16.03.2022, 18:05  [ТС]
403 это Forbidden. То есть сайт запретил тебе обращаться по этому адресу (к этому ресурсу).
Почему запретил? Потому что просто ссылки ему мало.
Почему мало? Потому что нужны еще http заголовки и, возможно, куки.
Потому что он понял что ты бот, а не человек.
Спасибо большое, я и не думал что это может быть так сложно устроено.

Про ошибку 403 читал, но тогда не понимал что означает.
Еще в поиске наткнулся на тему - как обойти защиту от ботов, но прошел мимо потому-что для меня прочитать это было похоже на чтение квантовой физики не зная кто вообще такой Ньютон)

Сколько книг по стеку TCP-IP ты прочитал?
Как работает HTTP протокол?
Как устроены сайты?
Что такое AJAX?
Что такое API?
Почему request возвращает совсем не то, что ты видишь в браузере?
Как узнать API сайта?
Что такое инструменты разработчика в браузере?
Спасибо за ответ, буду потихоньку изучать вышеупомянутые темы)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
16.03.2022, 18:05
Помогаю со студенческими работами здесь

Виртуальные хосты на локальном компе для работы с вэб на пайтон и микропайтон
Доброго времени суток. Некоторое время назад слегка занимался PHP. Поскольку работаю на винде , да ещё и на работе нельзя ничего своего...

Скраппинг новостей Озон
Добрый день! Помогите, пожалуйста, с таким вопросом. Есть тестовое задание - получить первые десять новостей с сайте Озон ...

вэб интерфейс
необходимо сделать красивый вэб интерфейс для работы с одной базой. главное сделать так чтобы пользователю страница выдавалась без ява...

Вэб сервер
Приветствую парни. Подскажите пожалуйста. Имеется сервер с вебсервисом (django+phyton) 10.0.0.2.При переходе с помощью браузера на...

Вэб-браузер....
вот решил сделать свой браузер, нашёл в нете код основы... сделал свой дизайн.. запустил, первый раз всё было норм... потом на...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
модель ЗдравоСохранения 5. Меньше увольнений- больше дохода!
anaschu 24.03.2026
Теперь система здравосохранения уменьшает количество увольнений. 9TO2GP2bpX4 Слева синяя линия - количество заказов - идёт вниз, работники не справляются. Справа синяя линяя идёт вверх, потому. . .
Midnight Chicago Blues
kumehtar 24.03.2026
Такой Midnight Chicago Blues, знаешь?. . Когда вечерние улицы становятся ночными, а ты не можешь уснуть. Ты идёшь в любимый старый бар, и бармен наливает тебе виски. Ты смотришь на пролетающие. . .
Контроль уникальности заводского номера - вариант №2
Maks 24.03.2026
В отличие от предыдущего варианта добавлено прерывание циклов, также добавлены новые переменные для сохранения контекста ошибки перед прерыванием цикла: Процедура ПередЗаписью(Отказ, РежимЗаписи,. . .
SDL3 для Desktop (MinGW): Вывод текста со шрифтом TTF с помощью библиотеки SDL3_ttf на Си и C++
8Observer8 24.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-text-sdl3-c. zip finish-text-sdl3-cpp. zip
Жизнь в неопределённости
kumehtar 23.03.2026
Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .
Модель здравоСохранения: работники работают быстрее после её введения.
anaschu 23.03.2026
geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .
Контроль уникальности заводского номера - вариант №1
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере документа выдачи шин для спецтехники с табличной частью в КА2. Данные берутся из регистра сведений, по которому настроено. . .
Хочу заставить корпорации вкладываться в здоровье сотрудников: делаю мат модель здравосохранения
anaschu 22.03.2026
e7EYtONaj8Y Z4Tv2zpXVVo https:/ / github. com/ shumilovas/ med2. git
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru