Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/6: Рейтинг темы: голосов - 6, средняя оценка - 4.67
0 / 0 / 0
Регистрация: 24.08.2023
Сообщений: 2

HTml-парсер

24.08.2023, 16:57. Показов 1297. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Что нужно сделать Дан несложный пример HTML-страницы: examples.html (код загрузки текста сайта из html файла добавлен в файл main.py) Изучите код этой страницы и реализуйте программу, которая получает список всех подзаголовков сайта (они заключены в теги h3). Ожидаемый результат: ['Latest News', 'Useful Links', 'Search', 'Heading 3'] Сделайте так, чтобы программа работала для любого сайта, где есть такие теги. Дополнительно: найдите любой сайт, у которого в коде есть теги 'h3', выполните get-запрос к этому сайту при помощи библиотеки requests и получите аналогичный список всех его подзаголовков (заключенных в теги 'h3')
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
24.08.2023, 16:57
Ответы с готовыми решениями:

html парсер на phyton
Недавно начал разбиратся с питоном хочу сделать парсер html страничек на нем вроде все нормально скачал страничку сохранил в переменной и...

Парсер html, вытащить текст класса
Вытаскиваю html, но не могу понять как забрать порт прокси, вроде нашёл нужный селектор, но когда беру текст этого тега и класса, то...

Парсер html: вытащить весь текст, который в объявлениях
Всем привет! Нужна помощь в парсере нтмл Вот силка "http://vashmagazin.ua/nerukhomist/kvartyry/sykhivskyy-rayon/" ...

2
Заблокирован
25.08.2023, 12:10
Примерно так. Возможно изменения нужно внести.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
from bs4 import BeautifulSoup
import requests
#Загрузка текста сайта из html файла
with open('examples.html', 'r') as f:
    html = f.read()
#Создание объекта BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
#Поиск всех тегов h3
h3_tags = soup.find_all('h3')
#Извлечение текста из тегов h3 и добавление в список
subheadings = [tag.text for tag in h3_tags]
#Вывод списка подзаголовков
print(subheadings)
для любого сайта
Python
1
2
3
4
5
6
7
8
9
from bs4 import BeautifulSoup
import requests
url = 'https://www.example.com' #указываем нужный сайт
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
h3_tags = soup.find_all('h3')
subheadings = [tag.text for tag in h3_tags]
print(subheadings)
1
0 / 0 / 0
Регистрация: 24.08.2023
Сообщений: 2
26.08.2023, 14:27  [ТС]
Спасибо)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
26.08.2023, 14:27
Помогаю со студенческими работами здесь

Ошибка HTML "No module named 'html.entities'; 'html' is not a package"
Добрый день. Подскажите, пожалуйста, следующий вопрос. У меня есть парсер сайта, который записывает результат в txt файл, всё работало...

HTML парсер
Доброе время суток. Проблема такова: Читаю с помощью WebClient хтмл, сайта. Нахожу тайтл с помощью регулярных выражений, если...

Html парсер на QT
Добрый день! Я понимаю, что мой вопрос очень абстрактен. Я хочу реализовать програмку на Qt, которая будет сама лазить по определенному...

HTML Парсер
Помогите кто-нибудь написать парсер html страницы на php. Парсить нужно http://raduga.obogatim.ru/afisha/. Нужно только картинку фильма и...

Парсер html
Ребят пишу парсер, парсю через регулярки, но есть проблема - не могу составить регулярку на код такого вида: <div...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru