Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/21: Рейтинг темы: голосов - 21, средняя оценка - 4.67
2 / 2 / 0
Регистрация: 23.06.2017
Сообщений: 72

Парсинг текста на сайте с защитой от копирования

18.08.2017, 18:24. Показов 4650. Ответов 8

Студворк — интернет-сервис помощи студентам
Уважаемые форумчане, прошу помощи: есть сайт с текстом книги, но он защищен от копирования. Помогите спарсить весь текст книги в файлик.
https://prodaman.ru/safonova/b... ter?page=1
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
18.08.2017, 18:24
Ответы с готовыми решениями:

Обход запрета копирования текста на сайте
В основном встречается на сайтах с фильмами. На некоторых такой убогий плеер, что приходится искать фильм на другом. Может кто знает...

Запись с защитой от копирования
Есть ли программа для записи видеопакета в формате DVD на диск так что бы в дальнейшем диск можно было бы использовать только для просмотра...

Файл с защитой от копирования
В ОС Windows есть файлы с защитой от копирования. То есть я открываю такой файл, копирую из него текст, вставляю в другой файл. Но куда...

8
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
18.08.2017, 18:28
DarkChirik, он парсится точно так же как и любой другой сайт, делаешь запрос при помощи requests, а потом с помощью lxml разбираешь html и все.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
18.08.2017, 18:49
Цитата Сообщение от DarkChirik Посмотреть сообщение
защищен от копирования
Протоколу HTTP наплевать что там верстальщики сделали со страницей. Если текст рендерится на странице сразу же, а не подгружается javascript'ом, он забирается как и написали выше, обычным способом.
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
18.08.2017, 18:55
А текст рендерится не при помощи js, уже проверил.
0
2 / 2 / 0
Регистрация: 23.06.2017
Сообщений: 72
18.08.2017, 19:08  [ТС]
Цитата Сообщение от alex925 Посмотреть сообщение
А текст рендерится не при помощи js, уже проверил.
А какое место страницы надо парсить извиняюсь за тупой вопрос конечно, но я не могу найти
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
18.08.2017, 19:17
DarkChirik, открываешь "посмотреть код элемента" в браузере и смотришь в каком теге нужный текст и все.
0
2 / 2 / 0
Регистрация: 23.06.2017
Сообщений: 72
18.08.2017, 19:21  [ТС]
Цитата Сообщение от alex925 Посмотреть сообщение
DarkChirik, открываешь "посмотреть код элемента" в браузере и смотришь в каком теге нужный текст и все.
Так там текста-то нет - просто название главы и все.
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
18.08.2017, 19:25
DarkChirik, у меня есть, а у тебя нет, так не бывает
Миниатюры
Парсинг текста на сайте с защитой от копирования  
0
 Аватар для Vigi
641 / 481 / 179
Регистрация: 28.05.2012
Сообщений: 1,419
19.08.2017, 19:20
Лучший ответ Сообщение было отмечено DarkChirik как решение

Решение

Писал на коленке
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
from bs4 import BeautifulSoup as BS
import requests
 
def get_html(url):
 
    r = requests.get(url)
    r.encoding = 'utf-8'
    return r.text
 
for p in range(1, 34):
    url = f'https://prodaman.ru/safonova/books/Lunnyj-veter?page={p}'
 
    soup = BS(get_html(url), 'lxml')
    r = soup.find('div', class_='blog-text noselect reader-box')
    with open('out.txt', 'a', encoding='utf-8') as f:
        for i in r:
            print(i, file=f)
 
    soup = BS(get_html(url), 'lxml')
    r = soup.find('div', class_='blog-text noselect reader-box')
    with open('out.txt', 'a', encoding='utf-8') as f:
        for i in r:
            print(i, file=f)
Добавлено через 6 минут
c 19 по 23 строку это глюк писать не нежно

Добавлено через 23 часа 39 минут
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
from bs4 import BeautifulSoup as BS
import requests
 
 
def get_html(url):
    r = requests.get(url)
    r.encoding = 'utf-8'
    return r.text
 
 
 
for p in range(1, 34):
    url = f'https://prodaman.ru/safonova/books/Lunnyj-veter?page={p}'
 
    soup = BS(get_html(url), 'lxml')
    r = soup.find('div', class_='blog-text noselect reader-box')
 
    with open('out.txt', 'a', encoding='utf-8') as f:
        for i in r:
            print(str(i).replace('<br/>', ''), file=f)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
19.08.2017, 19:20
Помогаю со студенческими работами здесь

Программа с защитой от несанкционированного копирования
Необходимо написать программу на C++, которая защищала бы сама себя от несанкционированного копирования с CD-диска с привязкой к CD-ROM. У...

Печать PDF в файл с защитой от копирования
Приветствую! Есть задачка, есть документ Word в котором на каждом листе нужно поставить штамп(или картинку или не важно, что это будет),...

Учебная программа с защитой от копирования, статического и динамического исследования
Здравствуйте, помогите пожалуйста с заданием нужно написать программу с такими параметрами:метод защиты программы от копирования:...

Необходимо файл ms word сохранить как pdf с защитой от копирования и паролем
Помогите пожалуйста. Задача следующая: необходимо файл ms word сохранить как pdf с защитой от копирования и изменения паролем. У меня...

Макрос удаления лишнинего текста в ячейке, и оставить нужное слово, после копирования текста из 1С в Excel
Доброго дня друзья.Прошу вас помочь мне создать МАКРОС, который после копирования текста в ячейку таблицы из программы 1с в Excel, сможет...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
Вывод данных через динамический список в справочнике
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Функция заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
10 пpимет, которые всегда сбываются
Maks 31.03.2026
1. Чтобы, наконец, пришла маршрутка, надо закурить. Если сигарета последняя, маршрутка придет еще до второй затяжки даже вопреки расписанию. 2. Нaдоели зима и снег? Не надо переезжать. Достаточно. . .
Перемещение выделенных строк ТЧ из одного документа в другой
Maks 31.03.2026
Реализация из решения ниже выполнена на примере нетипового документа "ВыдачаОборудованияНаСпецтехнику" с единственной табличной частью "ОборудованиеИКомплектующие" разработанного в конфигурации КА2. . . .
Functional First Web Framework Suave
DevAlt 30.03.2026
Sauve. IO Апнулись до NET10. Из зависимостей один пакет, работает одинаково хорошо как в режиме проекта так и в интерактивном режиме. из сложностей - чисто функциональный подход. Решил. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru