Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.74/35: Рейтинг темы: голосов - 35, средняя оценка - 4.74
0 / 0 / 0
Регистрация: 25.11.2014
Сообщений: 12

Python - сохранить html страницу

24.01.2015, 16:39. Показов 7485. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте! Хочу написать *веб приложение* которое будет сохранит html введенной страницы.
написал только скрипт
Python
1
2
3
import urllib
url=raw_input('Enter URL\n')
urllib.urlretrieve(url, filename='index.htm')
Помогите реализовать, чтобы можно было прикрутить к html форме(примерно)
HTML5
1
2
3
4
5
6
7
8
9
10
<html>
    <title> Interactive</title>
    <body>
        <form method=POST action="script.py">
            <P><B>Enter URL site:</B>
            <P><input type=text name=url>
            <P><input type=submit>
        </form>
    </body>
</html>
И появилась проблема, не могу сохранить например страницу вк(просто зацикливается и все), другие сайты нормально сохраняются.

Добавлено через 12 минут
Полагаю, что все из-за инфинити пэйдж, как можно обойти?
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
24.01.2015, 16:39
Ответы с готовыми решениями:

сохранить html страницу в файл
Нужно сохранить страницы html -код в txt файл. Выполняю import urllib.request res=open('res.txt', 'w') s =...

Скачать страницу и сохранить html
Нужно скачать и просто сохранить ее в .html. Почитал немного по lxml, но все равно не понял как можно это сделать. Как это...

Cкачать веб-страницу и сохранить в файл
Python 3 Программа, которая будет получать веб-адрес и имя файла как параметры и будет скачивать веб-страницу, находящуюся по этому...

7
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
24.01.2015, 23:10
Цитата Сообщение от Ziliboba Посмотреть сообщение
Хочу написать *веб приложение* которое будет сохранит html введенной страницы.
Ты думаешь оно кому-то нужно?

Добавлено через 57 секунд
Цитата Сообщение от Ziliboba Посмотреть сообщение
Помогите реализовать, чтобы можно было прикрутить к html форме(примерно)
Шта? Ты сам понял, что спросил?
0
0 / 0 / 0
Регистрация: 25.11.2014
Сообщений: 12
25.01.2015, 11:07  [ТС]
Цитата Сообщение от tsar925 Посмотреть сообщение
Ты думаешь оно кому-то нужно?

Добавлено через 57 секунд

Шта? Ты сам понял, что спросил?
Если я пишу тут, значит нужно)

Добавлено через 2 часа 38 минут
Изменил задачу....
требуется спарсить страницу вк(на сколько позволяет скролл без добавления контента)
0
3258 / 2060 / 351
Регистрация: 24.11.2012
Сообщений: 4,909
25.01.2015, 11:37
Цитата Сообщение от Ziliboba Посмотреть сообщение
требуется спарсить страницу вк(на сколько позволяет скролл без добавления контента)
У ВК есть api, его возможностей не хватает для этой задачи?
0
123 / 62 / 32
Регистрация: 10.01.2014
Сообщений: 241
25.01.2015, 17:41
Цитата Сообщение от Ziliboba Посмотреть сообщение
Изменил задачу....
требуется спарсить страницу вк(на сколько позволяет скролл без добавления контента)
vkapi однозначно, либо набивать шишки разбираясь с offset
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
25.01.2015, 20:03
Лучший ответ Сообщение было отмечено Ziliboba как решение

Решение

Цитата Сообщение от Ziliboba Посмотреть сообщение
требуется спарсить страницу вк(на сколько позволяет скролл без добавления контента)
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
import requests
 
 
LOGIN = '79261234567'  # Логин от аккаунта
PASSWORD = '123456'  # Пароль от аккаунта
ID_VK = '123456789'  # ID вконтакте
URL = 'https://vk.com/example'  # Ссылка на страницу
 
 
def auth(login, password):
    """
    Авторизация на сайте
    """
    data_auth = {
        'act': 'login',
        'role': 'al_frame',
        'q': '1',
        'al_frame': '1',
        'expire': '',
        'captcha_sid': '',
        'captcha_key': '',
        '_origin': 'https://vk.com',
        'email': login,
        'pass': password
    }
 
    requests_auth = requests.post('https://login.vk.com/?act=login', data=data_auth)
    if 'parent.onLoginDone' in requests_auth.text:
        return requests_auth.cookies
    else:
        print('Ошибка авторизации')
 
 
def get_records(id_vk):
    """
    Выкачивает все записи со стены
    """
    data_requests = {
        'act': "get_wall",
        'al': "1",
        'fixed': "",
        'offset': 10,
        'owner_id': id_vk,
        'type': "all"
    }
 
    all_record = ''  # тут аккумулируются все записи со стены
    response = ' '
    html = slice(response.find('<div id="post'), response.rfind('<!>'))
 
    while response:
        response = requests.get('https://vk.com/al_wall.php', params=data_requests, cookies=cookies).text
        response = response[html]
        all_record += response + '\n'
        data_requests['offset'] += 10
 
    return all_record
 
 
def glue_records(main, records):
    """
    Добавляет в страницу отдельно выкаченные записи со стены
    """
    separator = '<a class="more_link clear" id="wall_more_link" onclick="wall.showMore(10);">'
    main = main.replace('charset=windows-1251', 'charset=utf8')
    main = main.split(separator)
    return '{}{}{}{}'.format(main[0], records, separator, main[1])
 
 
cookies = auth(LOGIN, PASSWORD)
main_page = requests.get(URL, cookies=cookies).text
rec = get_records(ID_VK)
result = glue_records(main_page, rec)
 
out = open('res.html', 'w', encoding='utf8')
out.write(result)
out.close()
Добавлено через 4 минуты
Тут само собой не реализовано выкачивание css, изображений и js. При желании сделаешь сам.
1
0 / 0 / 0
Регистрация: 25.11.2014
Сообщений: 12
26.01.2015, 14:32  [ТС]
Спасибо огромное, правда психанул, реализовал на php)
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
26.01.2015, 14:46
Цитата Сообщение от Ziliboba Посмотреть сообщение
правда психанул, реализовал на php)
Стрелять себе в ногу никто не запрещает, это дело добровольное)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
26.01.2015, 14:46
Помогаю со студенческими работами здесь

Сохранить web-страницу в формате pdf
Здравствуйте всем. Постараюсь объяснить задумку. У веб-страницы есть адрес. Как нам сохранить эту веб-страницу формате pdf ? ...

Сохранить html страницу
В общем-то создалась такая ситуация, что нужно при помощи c++ сохранить html страницу с адреса. Тоесть даешь ему ссылку и оно...

Сохранить html-страницу в файл
Имеется: поле адреса, кнопка ОК. Ввожу адрес, жмякаю кнопщку, веб-страница(в текстовом виде) сохраняется в файл. Собснно проблема, какой...

Сохранить html страницу со всеми ее объектами
привет всем. возник такой вопрос. как сохранить просто html страницу я знаю, а вот как сохранить страницу и ее содержимое? (js, css,...

Как сохранить веб страницу в html
Как сохранить веб страницу в html


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
Как я обхитрил таблицу Word
Alexander-7 21.03.2026
Когда мигает курсор у внешнего края таблицы, и нам надо перейти на новую строку, а при нажатии Enter создается новый ряд таблицы с ячейками, то мы вместо нервных нажатий Энтеров мы пишем любые буквы. . .
Krabik - рыболовный бот для WoW 3.3.5a
AmbA 21.03.2026
без регистрации и смс. Это не торговля, приложение не содержит рекламы. Выполняет свою непосредственную задачу - автоматизацию рыбалки в WoW - и ничего более. Однако если админы будут против -. . .
Программный отбор значений справочника
Maks 21.03.2026
Установка программного отбора значений справочника "Сотрудники" из модуля формы документа. В качестве фильтра для отбора служит предопределенное значение перечислений. Процедура. . .
Переходник USB-CAN-GPIO
Eddy_Em 20.03.2026
Достаточно давно на работе возникла необходимость в переходнике CAN-USB с гальваноразвязкой, оный и был разработан. Однако, все меня терзала совесть, что аж 48-ногий МК используется так тупо: просто. . .
Оттенки серого
Argus19 18.03.2026
Оттенки серого Нашёл в интернете 3 прекрасных модуля: Модуль класса открытия диалога открытия/ сохранения файла на Win32 API; Модуль класса быстрого перекодирования цветного изображения в оттенки. . .
SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++
8Observer8 17.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-rectangles-sdl3-c. zip finish-rectangles-sdl3-cpp. zip
Символические и жёсткие ссылки в Linux.
algri14 15.03.2026
Существует два типа ссылок — символические и жёсткие. Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru