Задача 6. Web scraping

@12qwer · Регистрация: 04.11.2022

Студворк — интернет-сервис помощи студентам

Задача 6. Web scraping
Что нужно сделать

Дан несложный пример HTML-страницы: Sample Web Page.

Изучите код этой страницы и реализуйте программу, которая получает список всех подзаголовков сайта (они заключены в теги h3).

Ожидаемый результат:

['CONTENTS', '1. Creating a Web Page', '2. HTML Syntax', '3. Special Characters', '4. Converting Plain Text to HTML', '5. Effects', '6. Lists', '7. Links', '8. Tables', '9. Viewing Your Web Page', '10. Installing Your Web Page on the Internet', '11. Where to go from here', '12. Postscript: Cell Phones']
Сделайте так, чтобы программа работала для любого сайта, где есть такие теги.

Что оценивается

Результат вычислений корректен.
Формат вывода соответствует примеру.
Решение опирается на использование регулярных выражений и их методов.
Переменные, функции и собственные методы классов имеют значащие имена, не a, b, c, d.

@spectral70 · 08.11.2022, 22:44

12qwer

Python
1
2
3
4
5
6
7
8
9
10
import requests
from re import findall
 
 
response = requests.get('http://www.columbia.edu/~fdc/sample.html').text
# Для любого сайта, я так полагаю, необходимо просто вместо ссылки поставть input('Вставьте ссылку: ')
# Также можно ввести проверку на запрос через try и бесконечный цикл
result_beta = findall(r'>.+</h3>', response)
release = list(map(lambda x: x[1:-5], result_beta))
print(release)

Держи, лентяй)

@iSmokeJC · 09.11.2022, 08:56

Сообщение от spectral70

'>.+</h3>'

садись, два

@spectral70 · 09.11.2022, 13:01

iSmokeJC, так напиши, как надо

Добавлено через 19 секунд
дай дельный шаблон

@iSmokeJC · 09.11.2022, 13:07

Ну например
r'(?ms)(?<=<h3>).+?(?=</h3>)'
Обкромсать результат регулярки срезами -

@Welemir1 · 09.11.2022, 13:12

сорян, не увидел в задаче что нужны регулярки
но это конечно ужос -парсить регулярками веб-страницу

Добавлено через 2 минуты
не, все таки оставлю код, пусть преподам покажет и пристыдит

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
>>> import requests
>>> from lxml import html
>>> response = requests.get('http://www.columbia.edu/~fdc/sample.html').text
>>> h3 = html.fromstring(response).xpath('//h3')
>>> for element in h3:
...     print(element.text)
... 
CONTENTS
1. Creating a Web Page
2. HTML Syntax
3. Special Characters
4. Converting Plain Text to HTML
5. Effects
6. Lists
7. Links
8. Tables
9. Viewing Your Web Page
10. Installing Your Web Page on the Internet
11. Where to go from here
12. Postscript: Cell Phones

@ains_ol _gon · 16.03.2023, 13:26

Вам нужно выбрать тег h3 с любыми значениями атрибута.

r'<h3 .*?>(.*?)</h3>'

@Vasily7780 · 28.04.2023, 22:46

........................................ ..........
Вам нужно выбрать тег h3 с любыми значениями атрибута.

r'<h3 .*?>(.*?)</h3>'
........................................ ...........

зачем здесь эти знаки:"?" ?
это достаточно: r'<h3 .*>(.*)</h3>'

Добавлено через 24 минуты
import requests
import re
from lxml import html

response = requests.get('http://www.columbia.edu/~fdc/sample.html')

if response.status_code == 200:

# можно так:
for element in re.findall(r'<h3 .*>(.*)</h3>', response.text):
print(element)

print()

#а можно так:
for element in html.fromstring(response.text).xpath('//h3'):
print(element.text)

YuS_2 · 28.04.2023, 23:14

Сообщение от Vasily7780

зачем здесь эти знаки:"?" ?

знаки...
жадные квантификаторы? Не, не слышали...

Python
1
2
3
4
5
6
7
import re
s = '<h3>abc</h3><h3>def</h3>'
ex1 = re.findall(r'<h3.*>.*</h3>', s)
ex2 = re.findall(r'<h3.*?>.*?</h3>', s)
ex3 = re.findall(r'<h3.*>(.*)</h3>', s)
ex4 = re.findall(r'<h3.*?>(.*?)</h3>', s)
print(ex1,ex2,ex3,ex4,sep='\n')

- изучайте...

Сообщение от Vasily7780

<h3 .*>

- а вот пробел тут избыточен и даже вреден в таком виде...

@iSmokeJC · 28.04.2023, 23:16

Сообщение от Vasily7780

это достаточно

Это недостаточно.
Пример

Python
1
2
3
4
5
6
import re
 
s = '<h3 text=r>vvvvvv</h3><h3 text=v>zzzzzz</h3>'
 
print(re.findall(r'<h3 .*>(.*)</h3>', s))
print(re.findall(r'<h3 .*?>(.*?)</h3>', s))

Добавлено через 36 секунд

Не по теме:

YuS_2, опередил ))))

Добавлено через 59 секунд

Сообщение от YuS_2

а вот пробел тут избыточен и даже вреден

Новые блоги и статьи Все статьи Все блоги /
Отчёт о затраченных материалах за определенный период с макетом печатной формы Maks 21.04.2026 Отчёт из решения ниже размещён в конфигурации КА2. Задача: разработка отчёта по затраченным материалам за определённый период, с возможностью вывода печатной формы отчёта с шапкой и подвалом. В. . .	Отчёт о спецтехнике находящейся в ремонте Maks 20.04.2026 Отчёт из решения ниже размещен в конфигурации КА2. Задача: отобразить спецтехнику, которая на данный момент находится в ремонте. Есть нетиповой документ "Заявка на ремонт спецтехники" который. . .	Памятка для бота и "визитка" для читателей "Semantic Universe Layer (Слой семантической вселенной)" Hrethgir 19.04.2026 Сгенерировано для краткого описания по случаю сборки и компиляции скелета серверного приложения. И пусть после этого скажут, что статьи сгенерированные AI - туфта и не интересно. И это не реклама -. . .	Запрет удаления строк ТЧ документа при определённом условии Maks 19.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "Аккумуляторы", разработанного в конфигурации КА2. У данного документа есть ТЧ, в которой в зависимости от прав доступа. . .
Модель заражения группы наркоманов alhaos 17.04.2026 Условия задачи сформулированы тут Суть: - Группа наркоманов из 10 человек. - Только один инфицирован ВИЧ. - Колются одной иглой. - Колются раз в день. - Колются последовательно через. . .	Мысли в слух. Про "навсегда". kumehtar 16.04.2026 Подумалось тут, что наверное очень глупо использовать во всяких своих установках понятие "навсегда". Это очень сильное понятие, и я только начинаю понимать край его смысла, не смотря на то что давно. . .	My Business CRM MaGz GoLd 16.04.2026 Всем привет, недавно возникла потребность создать CRM, для личных нужд. Собственно программа предоставляет из себя базу данных клиентов, в которой можно фиксировать звонки, стадии сделки, а также. . .	Знаешь почему 90% людей редко бывают счастливыми? kumehtar 14.04.2026 Потому что они ждут. Ждут выходных, ждут отпуска, ждут удачного момента. . . а удачный момент так и не приходит.

@12qwer 0 / 0 / 0 Регистрация: 04.11.2022 Сообщений: 15

	Задача 6. Web scraping 04.11.2022, 11:17. Показов 23819. Ответов 9 Метки python, Решение (Все метки) Задача 6. Web scraping Что нужно сделать Дан несложный пример HTML-страницы: Sample Web Page. Изучите код этой страницы и реализуйте программу, которая получает список всех подзаголовков сайта (они заключены в теги h3). Ожидаемый результат: ['CONTENTS', '1. Creating a Web Page', '2. HTML Syntax', '3. Special Characters', '4. Converting Plain Text to HTML', '5. Effects', '6. Lists', '7. Links', '8. Tables', '9. Viewing Your Web Page', '10. Installing Your Web Page on the Internet', '11. Where to go from here', '12. Postscript: Cell Phones'] Сделайте так, чтобы программа работала для любого сайта, где есть такие теги. Что оценивается Результат вычислений корректен. Формат вывода соответствует примеру. Решение опирается на использование регулярных выражений и их методов. Переменные, функции и собственные методы классов имеют значащие имена, не a, b, c, d. 0

@spectral70 3 / 3 / 0 Регистрация: 27.10.2022 Сообщений: 7
	09.11.2022, 13:01
	iSmokeJC, так напиши, как надо Добавлено через 19 секунд дай дельный шаблон 0

@iSmokeJC 19530 / 11067 / 2931 Регистрация: 21.10.2017 Сообщений: 23,294
	09.11.2022, 13:07
	Ну например `r'(?ms)(?<=<h3>).+?(?=</h3>)'` Обкромсать результат регулярки срезами - 0

@ains_ol _gon 0 / 0 / 0 Регистрация: 13.02.2023 Сообщений: 2
	16.03.2023, 13:26
	Вам нужно выбрать тег h3 с любыми значениями атрибута. r'<h3 .?>(.?)</h3>' 0

@Vasily7780 0 / 0 / 0 Регистрация: 04.10.2022 Сообщений: 1
	28.04.2023, 22:46
	........................................ .......... Вам нужно выбрать тег h3 с любыми значениями атрибута. r'<h3 .?>(.?)</h3>' ........................................ ........... зачем здесь эти знаки:"?" ? это достаточно: r'<h3 .>(.)</h3>' Добавлено через 24 минуты import requests import re from lxml import html response = requests.get('http://www.columbia.edu/~fdc/sample.html') if response.status_code == 200: # можно так: for element in re.findall(r'<h3 .>(.)</h3>', response.text): print(element) print() #а можно так: for element in html.fromstring(response.text).xpath('//h3'): print(element.text) 0

Опции темы