|
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,755
|
|
ООП для парсинга сайтов24.08.2020, 18:44. Показов 5764. Ответов 16
Метки нет (Все метки)
Код части обучающих уроков написан с ООП. Как Вы думаете, достаточно того, что знаю (судя по общению на форуме на эту тему) или если нет, то по каких ключевым словам поискать, что надо подучить? Или надо всё ООП выучить, чтобы изучать парсинг по урокам? БьютифулСуп не смотрю. Хочу изучить на основе других модулей сначала.
0
|
|
| 24.08.2020, 18:44 | |
|
Ответы с готовыми решениями:
16
Функции для парсинга многостраничных сайтов Подскажите набор инструментов для парсинга сайтов
|
|
3258 / 2060 / 351
Регистрация: 24.11.2012
Сообщений: 4,909
|
|
| 24.08.2020, 18:45 | |
|
Судя по этому вопросу — https://www.cyberforum.ru/post14798866.html — ты не умеешь читать код. Без разницы, в какой парадигме он написан.
0
|
|
|
Просто Лис
|
|
| 24.08.2020, 18:50 | |
|
Зачем тебе ООП? Хочешь парсить сайты - парсь. Только в руки возьми requests+soup+lxml или что-нибудь подобное. Пользоваться готовыми классами (из этих библиотек) много ума не надо.
1
|
|
|
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,755
|
|
| 24.08.2020, 19:02 [ТС] | |
|
soup - имеется в виду БьютифулСуп?
Если не ошибаюсь, в уроке по lxml автор показывал код с ООП, в то же время сказал, что для тех, кто не знает, покажет потом без него. Другие уроки по парсингу в определенный момент переставал понимать. Думаю, может быть из-за того, что там ООП.
0
|
|
|
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,755
|
|
| 24.08.2020, 19:24 [ТС] | |
|
0
|
|
| 24.08.2020, 21:12 | ||||||
|
supmener, Я с парсингом знаком совсем немного, начал было и забросил. Поэтому знаком только с одной технологией парсинга, это с помощью фреймворка Scrapy . Там знание ООП обязательно. Вот здесь дается пример парсинга с помощью Scrapy
https://pycoder.ru/make-simple-spider-scrapy/ Там нужно создавать структуру каталогов для парсинга. А вот пример кода для парсинга, размещаемого в одном из каталогов
Хотя не только это, а то, что парсинг пишется свой на каждый сайт, для того, что бы отслеживать изменения информации на этом сайте. Как оказалось, для меня это не настолько интересно, что бы изучать нудный язык XPath. Может конечно другие технологии парсинга менее трудоемки, я не знаю.
1
|
||||||
|
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,755
|
||
| 24.08.2020, 21:22 [ТС] | ||
|
Благодарю. В XPath почти что уже выучил многое из него, надо повторить для закрепления материала.
0
|
||
|
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,755
|
|
| 25.08.2020, 09:12 [ТС] | |
|
Теперь понял, что cat - это команда для вывода содержимого requirements.txt в консоль.
0
|
|
|
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,755
|
|
| 25.08.2020, 16:40 [ТС] | |
|
Начал изучать ООП полностью.
В сложных случаях Scrapy используется совместно с Selenium или похожей программой. А ещё какие из них?
0
|
|
| 25.08.2020, 18:33 | ||
|
1
|
||
|
Просто Лис
|
|
| 25.08.2020, 18:47 | |
|
Вообще вопрос звучит как "Я хочу изучить арифметические операции, которые мне могут пригодиться для парсинга сайтов". Да никаким боком (почти) парсинг не связан с ООП.
Хочешь парсить сайты - для общего развития почитай про dns/ip/маршрутизацию/nat/модель osi/http/https. Поставь wireshark - погоняй http-трафик.
1
|
|
|
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,755
|
|
| 25.08.2020, 19:22 [ТС] | |
|
Для чтения гуглить, что попадется или какую - то определенную документацию?
0
|
|
| 26.08.2020, 13:06 | ||
|
0
|
||
| 26.08.2020, 13:06 | |
|
Помогаю со студенческими работами здесь
17
QT - класс для парсинга сайтов Компоненты для парсинга сайтов Методики для парсинга сайтов Какой язык выбрать для парсинга сайтов? Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
| Опции темы | |
|
|
Новые блоги и статьи
|
|||
|
Валидация и контроль данных табличной части документа перед записью
Maks 22.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в КА2.
Задача: контроль и валидация данных табличной части документа перед записью с учетом регламента компании. . .
|
Отчёт о затраченных материалах за определенный период с макетом печатной формы
Maks 21.04.2026
Отчёт из решения ниже размещён в конфигурации КА2.
Задача: разработка отчёта по затраченным материалам за определённый период, с возможностью вывода печатной формы отчёта с шапкой и подвалом.
В. . .
|
Отчёт о спецтехнике находящейся в ремонте
Maks 20.04.2026
Отчёт из решения ниже размещен в конфигурации КА2.
Задача: отобразить спецтехнику, которая на данный момент находится в ремонте.
Есть нетиповой документ "Заявка на ремонт спецтехники" который. . .
|
Памятка для бота и "визитка" для читателей "Semantic Universe Layer (Слой семантической вселенной)"
Hrethgir 19.04.2026
Сгенерировано для краткого описания по случаю сборки и компиляции скелета серверного приложения. И пусть после этого скажут, что статьи сгенерированные AI - туфта и не интересно. И это не реклама -. . .
|
|
Запрет удаления строк ТЧ документа при определённом условии
Maks 19.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "Аккумуляторы", разработанного в конфигурации КА2. У данного документа есть ТЧ, в которой в зависимости от прав доступа. . .
|
Модель заражения группы наркоманов
alhaos 17.04.2026
Условия задачи сформулированы тут
Суть:
- Группа наркоманов из 10 человек.
- Только один инфицирован ВИЧ.
- Колются одной иглой.
- Колются раз в день.
- Колются последовательно через. . .
|
Мысли в слух. Про "навсегда".
kumehtar 16.04.2026
Подумалось тут, что наверное очень глупо использовать во всяких своих установках понятие "навсегда". Это очень сильное понятие, и я только начинаю понимать край его смысла, не смотря на то что давно. . .
|
My Business CRM
MaGz GoLd 16.04.2026
Всем привет, недавно возникла потребность создать CRM, для личных нужд. Собственно программа предоставляет из себя базу данных клиентов, в которой можно фиксировать звонки, стадии сделки, а также. . .
|