Форум программистов, компьютерный форум, киберфорум
Python: Решение задач
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.54/109: Рейтинг темы: голосов - 109, средняя оценка - 4.54
0 / 0 / 0
Регистрация: 04.11.2022
Сообщений: 15

Задача 6. Web scraping

04.11.2022, 11:17. Показов 23501. Ответов 9

Студворк — интернет-сервис помощи студентам
Задача 6. Web scraping
Что нужно сделать

Дан несложный пример HTML-страницы: Sample Web Page.

Изучите код этой страницы и реализуйте программу, которая получает список всех подзаголовков сайта (они заключены в теги h3).

Ожидаемый результат:

['CONTENTS', '1. Creating a Web Page', '2. HTML Syntax', '3. Special Characters', '4. Converting Plain Text to HTML', '5. Effects', '6. Lists', '7. Links', '8. Tables', '9. Viewing Your Web Page', '10. Installing Your Web Page on the Internet', '11. Where to go from here', '12. Postscript: Cell Phones']
Сделайте так, чтобы программа работала для любого сайта, где есть такие теги.



Что оценивается

Результат вычислений корректен.
Формат вывода соответствует примеру.
Решение опирается на использование регулярных выражений и их методов.
Переменные, функции и собственные методы классов имеют значащие имена, не a, b, c, d.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
04.11.2022, 11:17
Ответы с готовыми решениями:

Web-Scraping Python
https://sbis.ru/contragents?p=contragents Есть сайт компаний, не могу понять как получить ссылку на компанию, нахожу div'ы ячейки, но там...

WEB-Scraping Интернет-магазина
Добрый день, дорогие форумчане! Начинаю изучать Python, поэтому буду благодарен вам за любую помощь. Пытаюсь спарсить ряд параметров с...

Scraping
Подскажите пожалуйста как вытащить информацию с data-phone-number <span title="Перевірений телефон" class="phone...

9
3 / 3 / 0
Регистрация: 27.10.2022
Сообщений: 7
08.11.2022, 22:44
12qwer

Python
1
2
3
4
5
6
7
8
9
10
import requests
from re import findall
 
 
response = requests.get('http://www.columbia.edu/~fdc/sample.html').text
# Для любого сайта, я так полагаю, необходимо просто вместо ссылки поставть input('Вставьте ссылку: ')
# Также можно ввести проверку на запрос через try и бесконечный цикл
result_beta = findall(r'>.+</h3>', response)
release = list(map(lambda x: x[1:-5], result_beta))
print(release)
Держи, лентяй)
1
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
09.11.2022, 08:56
Цитата Сообщение от spectral70 Посмотреть сообщение
'>.+</h3>'
садись, два
1
3 / 3 / 0
Регистрация: 27.10.2022
Сообщений: 7
09.11.2022, 13:01
iSmokeJC, так напиши, как надо

Добавлено через 19 секунд
дай дельный шаблон
0
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
09.11.2022, 13:07
Ну например
r'(?ms)(?<=<h3>).+?(?=</h3>)'
Обкромсать результат регулярки срезами -
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
09.11.2022, 13:12
сорян, не увидел в задаче что нужны регулярки
но это конечно ужос -парсить регулярками веб-страницу

Добавлено через 2 минуты
не, все таки оставлю код, пусть преподам покажет и пристыдит

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
>>> import requests
>>> from lxml import html
>>> response = requests.get('http://www.columbia.edu/~fdc/sample.html').text
>>> h3 = html.fromstring(response).xpath('//h3')
>>> for element in h3:
...     print(element.text)
... 
CONTENTS
1. Creating a Web Page
2. HTML Syntax
3. Special Characters
4. Converting Plain Text to HTML
5. Effects
6. Lists
7. Links
8. Tables
9. Viewing Your Web Page
10. Installing Your Web Page on the Internet
11. Where to go from here
12. Postscript: Cell Phones
4
0 / 0 / 0
Регистрация: 13.02.2023
Сообщений: 2
16.03.2023, 13:26
Вам нужно выбрать тег h3 с любыми значениями атрибута.

r'<h3 .*?>(.*?)</h3>'
0
0 / 0 / 0
Регистрация: 04.10.2022
Сообщений: 1
28.04.2023, 22:46
........................................ ..........
Вам нужно выбрать тег h3 с любыми значениями атрибута.

r'<h3 .*?>(.*?)</h3>'
........................................ ...........

зачем здесь эти знаки:"?" ?
это достаточно: r'<h3 .*>(.*)</h3>'

Добавлено через 24 минуты
import requests
import re
from lxml import html


response = requests.get('http://www.columbia.edu/~fdc/sample.html')

if response.status_code == 200:

# можно так:
for element in re.findall(r'<h3 .*>(.*)</h3>', response.text):
print(element)

print()

#а можно так:
for element in html.fromstring(response.text).xpath('//h3'):
print(element.text)
0
Любознательный
 Аватар для YuS_2
7404 / 2249 / 360
Регистрация: 10.03.2016
Сообщений: 5,196
28.04.2023, 23:14
Цитата Сообщение от Vasily7780 Посмотреть сообщение
зачем здесь эти знаки:"?" ?
знаки...
жадные квантификаторы? Не, не слышали...
Python
1
2
3
4
5
6
7
import re
s = '<h3>abc</h3><h3>def</h3>'
ex1 = re.findall(r'<h3.*>.*</h3>', s)
ex2 = re.findall(r'<h3.*?>.*?</h3>', s)
ex3 = re.findall(r'<h3.*>(.*)</h3>', s)
ex4 = re.findall(r'<h3.*?>(.*?)</h3>', s)
print(ex1,ex2,ex3,ex4,sep='\n')
- изучайте...

Цитата Сообщение от Vasily7780 Посмотреть сообщение
<h3 .*>
- а вот пробел тут избыточен и даже вреден в таком виде...
3
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
28.04.2023, 23:16
Цитата Сообщение от Vasily7780 Посмотреть сообщение
это достаточно
Это недостаточно.
Пример
Python
1
2
3
4
5
6
import re
 
s = '<h3 text=r>vvvvvv</h3><h3 text=v>zzzzzz</h3>'
 
print(re.findall(r'<h3 .*>(.*)</h3>', s))
print(re.findall(r'<h3 .*?>(.*?)</h3>', s))
Добавлено через 36 секунд

Не по теме:

YuS_2, опередил ))))



Добавлено через 59 секунд
Цитата Сообщение от YuS_2 Посмотреть сообщение
а вот пробел тут избыточен и даже вреден
2
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
28.04.2023, 23:16
Помогаю со студенческими работами здесь

Xpath and Scraping
Вот страница http://econpy.pythonanywhere.com/ex/001.html хочу получить два списка,закупщик и цена, есть несколько вопросов, как...

Web scraping - извлечение данных с web-страницы
Добрый день всем! помогите написать скрипт который будет извлекать email, телефоный номер и адрес фирмы с web-странцы. Заранее...

Web scraping и переменные
Добрый ден, я начал изучать программирование и так как приходилось наблюдать за работой людей на nodejs, решил начать именно с него. ...

HtmlUnit financial website web scraping
Нужна помощь с вытаскиванием таблицы из сайта: https://www.cyberforum.ru/web-mastering/thread1553491.html ...

Выбор django или Scraping + Data Mining
Здравствуйте. Усилено изучаю пайтон. Прошел момент практического выбора чем именно заняться, из двух направлений, и насколько они...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru