Как получить полный адрес веб страницы по ссылке

@Егор Щербанов · Регистрация: 19.02.2018

Студворк — интернет-сервис помощи студентам

Ситуация такая есть сайт с рассылками по lua http://lua-users.org/lists/lua-l/

Нужно получить все ссылки

Python
1
2
3
4
5
6
7
8
html = urlopen("http://lua-users.org/lists/lua-l/")
soup = BeautifulSoup(html,"lxml")
div = soup.find_all('table')
for a in div:
  href= a.find_all('a')
  for b in href:
    s=str(b['href'])
    print(s)

Мы получаем такие ссылки /lists/lua-l/2020-01/, вместо таких http://lua-users.org/lists/lua-l/2020-01/
Приходится искать обходные пути, например, вот так.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
import urllib.request
def loadweb(url):
 try:
  with urllib.request.urlopen(url) as response:
     html = response.read().decode('utf-8')#use whatever encoding as per the webpage
     soup2 = BeautifulSoup(html,"lxml")
     print(soup2.text)
 except urllib.request.HTTPError as e:
  if e.code==404:
    print(f"{url} is not found")
  elif e.code==503:
    print(f'{url} base webservices are not available')
  else:
    print('http error',e)
html = urlopen("http://lua-users.org/lists/lua-l/")
soup = BeautifulSoup(html,"lxml")
div = soup.find_all('table')
for a in div:
  href= a.find_all('a')
  for b in href:
    s=str(b['href'])
    res = s.find("lua-l")
    if res != -1:
     adres = "http://lua-users.org/"+str(b['href'])
     # print(adres)
     html = urlopen(adres)
     soup1 = BeautifulSoup(html,"lxml")
     div1 = soup1.find_all('a')
     for i in div1:
      adres2 =adres+ str(i['href'])
      res = adres2.find("html")
      if res != -1:
       # print(adres2)
       loadweb(adres2)
    break

Вроде все работает, как задумано, но текст получает не очень компактный, как это исправить, как его перевести на русский язык ?

@Garry Galler · 10.03.2020, 16:35

lxml умеет делать абсолютные url-ы из относительных.
Именно ее рекомендуется использовать вместо bs4 (то есть даже не как backend для bs4, а напрямую).

Python
1
2
root = lxml.html.fromstring(some_html_page)
root.make_links_absolute(базовый_url_по_которому_вы_запрашиваете_страничку)

Первая строка парсит документ (полученный после запроса html) в дерево тегов.
Вторая заменяет в этом дереве все относительные ссылки на абсолютные.
Например, если базовый url был "http://localhost/foo/bar.html" , то ссылка baz.html превратится в "http://localhost/foo/baz.html".

Дальше можно по этому дереву делать обычный парсинг с использованием XPATH (bs4 XPATH не поддерживает).

Добавлено через 10 минут

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
>>> from lxml.html import fromstring
>>> import requests
>>> url = 'http://microformats.org/'
>>> content = requests.get(url).text
>>> root = fromstring(content)
>>> root.make_links_absolute(url)
>>> from pprint import pprint
>>> urls = root.xpath('//a[@href]/@href')
>>> pprint(urls[:10])
['http://microformats.org/blog',
 'http://microformats.org/wiki/',
 'http://microformats.org/wiki/irc',
 'http://microformats.org/wiki/about',
 'http://microformats.org/wiki/code-tools',
 'http://microformats.org/wiki/get-started',
 'http://microformats.org/feed',
 'http://microformats.org/2020/03/04/google-confirms-microformats-are-still-a-recommended-metadata-format-for-content',
 'https://www.jvt.me/posts/2020/03/02/google-microformats-support/',
 'https://webmasters.googleblog.com/2020/01/data-vocabulary.html']
>>>

Тогда как без использования make_links_absolute, получаем как есть:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
>>> root = fromstring(content)
>>> urls = root.xpath('//a[@href]/@href')
>>> pprint(urls[:10])
['/blog',
 '/wiki/',
 '/wiki/irc',
 '/wiki/about',
 '/wiki/code-tools',
 '/wiki/get-started',
 'http://microformats.org/feed',
 'http://microformats.org/2020/03/04/google-confirms-microformats-are-still-a-recommended-metadata-format-for-content',
 'https://www.jvt.me/posts/2020/03/02/google-microformats-support/',
 'https://webmasters.googleblog.com/2020/01/data-vocabulary.html']
>>>

@Егор Щербанов · 10.03.2020, 21:03 **[ТС]**

Garry Galler, спасибо большое Вы мне как всегда очень помогли

Новые блоги и статьи Все статьи Все блоги /
Фото всей Земли с борта корабля Orion миссии Artemis II kumehtar 04.04.2026 Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .	Вывод диалогового окна перед закрытием, если документ не проведён Maks 04.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .	Программный контроль заполнения реквизита табличной части документа Maks 02.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита "ПричинаСписания". . .	wmic не является внутренней или внешней командой Maks 02.04.2026 Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения Maks 02.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .	Вывод данных в справочнике через динамический список Maks 01.04.2026 Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .	Программное заполнения текстового поля в реквизите формы документа Maks 01.04.2026 Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .	К слову об оптимизации kumehtar 01.04.2026 Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .

@Егор Щербанов 11 / 10 / 2 Регистрация: 19.02.2018 Сообщений: 393
	10.03.2020, 21:03 [ТС]
	Garry Galler, спасибо большое Вы мне как всегда очень помогли 0

Как получить полный адрес веб страницы по ссылке

Решение