Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.78/40: Рейтинг темы: голосов - 40, средняя оценка - 4.78
0 / 0 / 0
Регистрация: 19.11.2015
Сообщений: 8

Вместо файла скачивается веб-страница

15.05.2020, 20:46. Показов 8303. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Привет. Пишу скрипт для загрузки субтитров с physkids. Пишу чисто для себя, чтобы можно было скачивать сериалы и смотреть их в оригинале. Алгоритм работы программы не сильно сложный: подключаемся к сайту, находим ссылки на все, что касается серий (в коде сайта прописывается массив с сериями, как я понял), обрезаем строки, чтобы остались только ссылки на субтитры и загоянем в список. После чего проходим в цикле по списку и скачиваем субтитры для каждой серии. Вот с последним и возникли проблемы - скачивается не файл, а исходный код главной страницы. Пробовал и через urllib, и через requests, и через wget - итог один. Попробовал перейти по ссылке в браузере - редиректит на главную страницу сайта (кто бы сомневался). Я бы сдался и опустил руки, но самое смешное: если забить ссылку в Download Master, то он скачает именно файл субтитров!
Собственно вопрос - как скачать файл с субтитрами вместо исходника главной страницы сайта?

Сам код (извиняюсь, если плохо - я только учусь):
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
#!/usr/bin/python
# -*- coding: utf-8 -*-
 
FILENAME =      'sitecode'              #Имя файла, в который записывается исходный код страницы
SEARCH_1 =      '                var player = new Playerjs'         #Искомая строка в коде страницы, с которой начинается массив серий
SEARCH_2 =      '                  ]});\n'                          #Строка, которой закрывается массив серий
SUB_SEARCH =    '[Russian]'         #По этой подстроке находится ссылка на субтитры
FILESEARCH =    '/'                 #Символ, по которому находится имя файла
 
def get_code():         #Получаем исходный код страницы и загружаем его в файл
    import urllib.request as urllib
    f = urllib.urlopen("https://phys-kids.com/274-utinye-istorii-2-sezon.html")     #подключаемся к сайту
    fw = open(FILENAME, 'wb')
    try:
        fw.write(f.read())      #запись исходного кода сайта в файл
    finally:
        fw.close()
 
def make_url(str):          #создание ссылки на субтитры из строки
    url = str[str.find(SUB_SEARCH) + len(SUB_SEARCH) :]
    url = url [: url.find (',')]
    return url
 
def get_sub_urls():         #Получение ссылки на субтитры
    #import os      #временно отключено
    fw = open (FILENAME, 'r', encoding='utf-8')     #открываем файл с исходным кодом
    try:
        url = []            #Объявление списка ссылок
        #Поиск и запись номера искомых строк
        for i, line in enumerate (fw):
            if SEARCH_1 in line:
                n1 = i
            elif SEARCH_2 in line:
                n2 = i
        fw.seek(0)
        #Создание ссылки и добавление ее в список
        for i, line in enumerate (fw):
            if (i > n1) and (i < n2):
                if SUB_SEARCH in line:
                    url.append(make_url(line))
                    
    finally:
        #Закрытие и удаление файла
        fw.close()
        #os.remove(FILENAME)
    return url
 
def download(url = []):
    import wget
    filename = url[0][url[0].rfind(FILESEARCH) + len (FILESEARCH):] #Получение имени файла
    wget.download (url[0], filename)
    return 0
 
 
 
def main():
    get_code()
    download(get_sub_urls())
 
main()
В консоль выводится строка
Code
1
-1 / unknown
И скачивается файл с исходным кодом главной страницы

P.S. Года два назад писал подобный скрипт для этого же сайта. Только ссылки на субтитры находил вручную. Попробовал им - тоже качает исходник главной страницы. Увы, исходный код этого скрипта потерян (компилировал все в .exe, а сам исходник походу стер)
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
15.05.2020, 20:46
Ответы с готовыми решениями:

Веб страница вместо фонового изображения в браузере
я пишу браузер на delphi и хотелось бы сделать такую вещь: чтобы на браузера фоне была картинка, а когда адрес в строку вводишь вместо...

Загрузка файла через curl, а вместо файла страница с кроказабярами
Скачиваю файл через curl, а вместо него вылазает страница с крокозябрами HTTP/1.1 100 Continue HTTP/1.1 200 OK Server: nginx Date: Sat, 16...

Скачивается не та страница!
import requests from bs4 import BeautifulSoup...

5
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
15.05.2020, 22:05
Цитата Сообщение от MadnessMK Посмотреть сообщение
И скачивается файл с исходным кодом главной страницы
А ниче что там по клику на кнопку скачать: Скачивание доступно только пользователям с подпиской?
Поэтому даже вручную взяв любую ссылку на субтитры получаешь фигу с маслом.
0
0 / 0 / 0
Регистрация: 19.11.2015
Сообщений: 8
15.05.2020, 22:17  [ТС]
Garry Galler, это да. Но Download Master же как-то скачивает. Вот поэтому и интересно
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
15.05.2020, 22:33
Цитата Сообщение от MadnessMK Посмотреть сообщение
Но Download Master же как-то скачивает.
Что он там скачивает?
0
0 / 0 / 0
Регистрация: 19.11.2015
Сообщений: 8
15.05.2020, 22:37  [ТС]
Garry Galler, Он скачивает именно файл с субтитрами
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
15.05.2020, 23:35
Лучший ответ Сообщение было отмечено MadnessMK как решение

Решение

Цитата Сообщение от MadnessMK Посмотреть сообщение
скачивает именно файл с субтитрами
Да, попробовал - скачивает.
Ну дак DM не абы кем написан.
Я попробовал через requests - пока неудачно. Сайт редиректит по коду 301 на главную. Если отключить переход по редиректу - получаем просто страничку редиректа. Так что не знаю... Можно, конечно, заснифать то, что делает DM каким-нибудь HttppAnalyzer'ом - станет понятно какой запрос он шлет.

Добавлено через 27 минут
В общем вот так работает. Дальше думай сам.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
>>> import requests
>>> headers ={'Accept':"*/*","Cache-Control":"no-cache","Host":"n.phys-kids.com","Accept-Encoding":"gzip,deflate","Referer":"https://n.phys-kids.com/mp4/Ducktales/s2/"}
>>> url =  "https://n.phys-kids.com/mp4/Ducktales/s2/e01rus.vtt"
>>> resp = requests.get(url, headers=headers, verify=False) # здесь получаем  ворнинг из-за отключния проверки SSL сертификата
 
Warning (from warnings module):
  File "F:\INSTALL\Python38\lib\site-packages\urllib3\connectionpool.py", line 997
    warnings.warn(
InsecureRequestWarning: Unverified HTTPS request is being made to host 'n.phys-kids.com'. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
>>> >>> print(resp.text[:500])  # смотрим  что скачали - (первые 500 символов)
WEBVTT
 
 
 
00:00:00.000 --> 00:00:04.500
 
Переведено релиз-группой PhysKids
 
 
 
00:00:34.110 --> 00:00:36.210
 
♪ Вил, Вил, Вилли снова в деле ♪
 
 
 
00:00:36.210 --> 00:00:38.460
 
♪ Да, мы снова удивляем вас ♪
 
 
 
00:00:38.460 --> 00:00:40.460
 
♪ И Поночка уже здесь ♪
 
 
 
00:00:40.460 --> 00:00:43.070
 
♪ И Поночка уже здесь ♪
 
 
 
00:00:50.420 --> 00:00:51.880
 
Малец?
 
 
 
00:00:51.880 --> 00:00:53.280
 
♪ Шаг, поворот, шаг, поворот ♪
 
 
 
00:00:53.280 --> 00:00:55.610
 
♪ Шаг, поворот, переворот ♪
 
 
 
00:00:5
>>>
Добавлено через 6 минут
По сути из заголовков нужен только один:
Python
1
headers ={"Referer":"https://n.phys-kids.com/mp4/Ducktales/s2/"}
И его скорей всего придется менять для каждого фильма в соответствии с его url.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
15.05.2020, 23:35
Помогаю со студенческими работами здесь

При загрузке страницы, страница скачивается
Здравствуйте, проблема в следующем, апач стартанул, а вот пхп не работает, при открытии страницы ip-адрес/index.php страница скачивается. А...

Скачивается php файл вместо открытия
Всем доброго дня. Начал изучать html и php, столкнулся с такой проблемой. Вместо открытия php файла, он скачивается. С кодом все в...

Html-файл скачивается вместо открытия
Всем доброго дня. Прописал в .htaccess AddType application/x-httpd-php .html Файлы с php вставкой или без нее, по фиг,...

Php файл скачивается вместо исполнения
Не делал никаких настроек ни в одном приложении, только обновлялась опера, насколько я помню, но связи не вижу, т.к. в других браузерах так...

bitrix: вместо открывания index.php скачивается
собственно сабж. при попытке открыть сайт, скачивается тело index.php вместо того, чтобы открыть его. началось после нелепой попытки...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
Фото: Daniel Greenwood
kumehtar 13.11.2025
Расскажи мне о Мире, бродяга
kumehtar 12.11.2025
— Расскажи мне о Мире, бродяга, Ты же видел моря и метели. Как сменялись короны и стяги, Как эпохи стрелою летели. - Этот мир — это крылья и горы, Снег и пламя, любовь и тревоги, И бескрайние. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru