Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.97/29: Рейтинг темы: голосов - 29, средняя оценка - 4.97
0 / 0 / 0
Регистрация: 23.09.2019
Сообщений: 27

Используя регулярные выражения извлечь из текста html-файла все ссылки

15.10.2019, 16:07. Показов 6239. Ответов 4

Студворк — интернет-сервис помощи студентам
Извлеките из текста html-файла все ссылки (всё, что содержится в шаблоне
<a href=’…’>)*
* Для работы с html запросами используйте библиотеку requests.
Для установки библиотеки на домашнем компьютере используйте команду
pip install requests, набранную в командной строке. Библиотека содержит
следующие основные методы:
GET — получение ресурса
POST — создание ресурса
PUT — обновление ресурса
DELETE — удаление ресурса
Начало программы 2 может выглядеть следующим образом:
Python
1
2
3
4
import requests import re
st1=input('введите адрес сайта
') res=requests.get(st1) s=res.text
print(s)
Для группировки строк используйте круглые скобки. Подгруппы нумеруются
слева направо, от 1 и далее. Группы могут быть вложенными; для того, чтобы
определить число вложений, просто подсчитываем слева направо символы
открывающей скобки:
Python
1
2
3
4
5
6
7
8
>>> p = re.compile('(a(b)c)d')
>>> m = p.match('abcd')
>>> m.group(0)
'abcd'
>>> m.group(1)
'abc'
>>> m.group(2)
'b'
group() может принять одновременно несколько номеров групп в одном
запросе, и будет возвращен кортеж, содержащий значения для соответствующих
групп:
Python
1
2
>>> m.group(2,1,2)
('b', 'abc', 'b')
Метод groups() возвращает кортеж строк для всех подгрупп, начиная с 1-ой:
Python
1
2
>>> m.groups()
('abc', 'b')
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
15.10.2019, 16:07
Ответы с готовыми решениями:

Используя регулярные выражения, вытащить из текста все, что начинается с [ и заканчивается ]
Есть некий текст, из него надо вытащить все что начинается с . Использую модуль regexpr, но что то не работает=( Как по моему, все...

Регулярные выражения. Извлечь из html текст между двумя тегами
Ломаю голову с регулярными выражениями, не получается корректно решить простую задачу: Нужно извлечь из html текст между двумя тегами, но...

Используя регулярные выражения, выведите на консоль все слова, стоящие после открывающейся кавычки во фрагменте текста
Помогите пожалуйста( очень нужно Используя регулярные выражения, выведите на консоль все слова, стоящие после открывающейся кавычки во...

4
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,694
Записей в блоге: 29
15.10.2019, 16:11
Екатерина 99, так погоди, что не понятно? в тексте полная инструкция написана для тебя
0
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
07.01.2021, 17:15

Python
1
2
3
4
5
import re
import requests
 
text = requests.get('https://python-scripts.com/requests').text
print(*re.findall(r'(?<=<a href=")h.+?(?=")', text), sep='\n')
Кликните здесь для просмотра всего текста
Bash
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
https://python-scripts.com/
https://python-scripts.com/install-python
https://python-scripts.com/pycharm-download
https://python-scripts.com/tkinter
https://python-scripts.com/forum
https://python-scripts.com/books
https://python-scripts.com/beautifulsoup-html-parsing
https://ru.wikipedia.org/wiki/HTTP
https://python-scripts.com/virtualenv
https://ru.wikipedia.org/wiki/HTTP#Методы
https://developer.github.com/v3/#root-endpoint
https://python-scripts.com/try-except-finally
https://ru.wikipedia.org/wiki/Список_кодов_состояния_HTTP
https://python-scripts.com/f-strings
https://python-scripts.com/string
https://ru.wikipedia.org/wiki/UTF-8
https://ru.wikipedia.org/wiki/Набор_символов
https://ru.wikipedia.org/wiki/Заголовки_HTTP
https://python-scripts.com/lists-tuples-dictionaries#dict
https://en.wikipedia.org/wiki/Query_string
https://developer.github.com/v3/search/
https://httpbin.org
https://developer.github.com/v3/users/#get-the-authenticated-user
https://python-scripts.com/try-except-finally
https://realpython.com/python-requests/
https://www.patreon.com/python_community
https://python-scripts.com/category/decorators
https://python-scripts.com/category/gui/tkinter-python
https://python-scripts.com/category/gui/pycairo-tutorials-python
https://python-scripts.com/install-python-3-8-linux
0
Просто Лис
Эксперт Python
 Аватар для Рыжий Лис
5973 / 3735 / 1099
Регистрация: 17.05.2012
Сообщений: 10,791
Записей в блоге: 9
07.01.2021, 18:45
iSmokeJC, а если так?

HTML5
1
2
3
4
<a href = "https://python-scripts.com/books">link</a>
<a   href="https://python-scripts.com/books">link</a>
<a href='https://python-scripts.com/books'>link</a>
<a class='fox' href='https://python-scripts.com/books2'>link</a>
0
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
07.01.2021, 18:56
Рыжий Лис, я прекрасно понимаю, что в реальной жизни эта регулярка не катит. Но по ТЗ - вполне.
Вспомни регулярку на 100500 строк, которая мыло проверяет (по всей сети валяется)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
07.01.2021, 18:56
Помогаю со студенческими работами здесь

Регулярные выражения: извлечь из текста цены в разной валюте
Создать программу: Есть текст со списками цен. Извлечь из него цены в USD, RUR, EU. – пример правильных выражений: 23.78 USD. –...

Регулярные выражения. Извлечь из текста цены в USD, RUR, EU.
Есть текст со списками цен. Извлечь из него цены в USD, RUR, EU. Примеры правильных выражений: 23.78 USD. Примеры неправильных ...

Используя регулярные выражения, извлечь из строки и напечатать в порядке появления цены в долларах
Помогите решить заду. Дана строка S. Используя регулярные выражения, извлечь из строки и напечатать в порядке появления: Цены в...

Как распарсить ссылку используя регулярные выражения, извлечь протоколы https или http для условия?
У меня есть код в котором строка проверяется по домену, таким образом я определяю является ссылка с yandex disk или это мой файл...

Вырезание текста, используя регулярные выражения
Всем доброго времени суток. Встала проблема: есть текст - набор любых текстовых символов и цифр. Он разделяется тегами - IN и OUT....


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Программный контроль заполнения реквизита табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита табличной части. . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Функция заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru