Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.89/9: Рейтинг темы: голосов - 9, средняя оценка - 4.89
32 / 25 / 12
Регистрация: 24.01.2011
Сообщений: 564

Парсинг страницы

17.11.2018, 19:38. Показов 2038. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
 
 
def get_links(url):
    html = urlopen(url)
    soup = BeautifulSoup(html)
    names = soup.find_all('a', class_='c-events__name')
    links = []
    for name in names:
        links.append(url + name.get('href'))
    return links
 
def get_names(link):
    html = urlopen(link)
    soup = BeautifulSoup(html)
    name = soup.find('span', class_='gname')
    return name.text
 
def main():
    url = "https://1xmavemv.com/ru/line/Handball/"
    links = get_links(url)
    link = links[0]             #здесь https://1xmavemv.com/ru/line/Handball/5803-EHF-Cup/34766217-RK-Eurofarm-Rabotnik-BSV-Bern-Muri/
    print(get_names(link))
 
if __name__ == "__main__":
    main()
так не работает
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Traceback (most recent call last):
  File "C:/Users/HAIRY/PycharmProjects/scrape/scrapetest.py", line 28, in <module>
    main()
  File "C:/Users/HAIRY/PycharmProjects/scrape/scrapetest.py", line 25, in main
    print(get_links(link))
  File "C:/Users/HAIRY/PycharmProjects/scrape/scrapetest.py", line 7, in get_links
    html = urlopen(url)
  File "C:\Users\HAIRY\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 222, in urlopen
    return opener.open(url, data, timeout)
  File "C:\Users\HAIRY\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 531, in open
    response = meth(req, response)
  File "C:\Users\HAIRY\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 641, in http_response
    'http', request, response, code, msg, hdrs)
  File "C:\Users\HAIRY\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 569, in error
    return self._call_chain(*args)
  File "C:\Users\HAIRY\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 503, in _call_chain
    result = func(*args)
  File "C:\Users\HAIRY\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 649, in http_error_default
    raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 404: Not Found
но если ссылку вставить аргументом
Python
1
print(get_names('https://1xmavemv.com/ru/line/Handball/5803-EHF-Cup/34766217-RK-Eurofarm-Rabotnik-BSV-Bern-Muri/'))
все работает. Подскажите в чем проблема, пожалуйста

Добавлено через 17 минут
del/
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
17.11.2018, 19:38
Ответы с готовыми решениями:

Парсинг страницы
Здравствуйте! Столкнулся с такой проблемой, что не могу спарсить страницу. Я использовал BeautifulSoup для парсинга, но суть проблемы в...

Ускорить парсинг страницы
Всем привет. Пишу парсер, все ок, все работает. Но, работает ДОЛГО. На одну функцию уходит больше 2 секунд, а их там 4 -_- from bs4...

Парсинг html страницы
хочу сделать автоматическое скачивание файлов по ключевому слову на картинке есть кнопка которая выдаёт ссылку на скачку(первая...

1
1741 / 913 / 480
Регистрация: 05.12.2013
Сообщений: 3,074
18.11.2018, 03:23
Цитата Сообщение от HAIRY Посмотреть сообщение
urllib.error.HTTPError: HTTP Error 404: Not Found
Тут проблема еще при получении страницы, скорее всего проверяется, чтобы был броузер

Поставьте библиотеку requests

pip install requests

и получайте страницу так

Python
1
2
3
4
5
import requests
from bs4 import BeautifulSoup
 
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
r = requests.get('https://2ip.ru/', headers=headers)
может еще понадобиться и куки принять
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
18.11.2018, 03:23
Помогаю со студенческими работами здесь

Парсинг html страницы картинок
Здравствуйте. Есть код: import requests from bs4 import BeautifulSoup as bs import random import lxml.html r =...

Selenium парсинг элементов страницы.
Как кликать на этот элемент? &lt;div class=&quot;x-layer x-combo-list&quot; id=&quot;ext-gen83&quot;&gt; &lt;div class=&quot;x-combo-list-inner&quot;...

Парсинг залогиненной html страницы
есть код import requests from json import loads from bs4 import BeautifulSoup import re from selenium import webdriver ...

Парсинг страницы python и получение запроса (beautifulSoup, requests)
Здравствуйте. Суть проблемы заключается в том, что для парсинга я получаю страницу, где должна быть таблица с данными, но в print(r.text)...

Парсинг содержимого страницы, которое формируется через AJAX
Доброго времени. Подскажите как можно реализовать парсинг содержимого, формируемого AJAX? BS4 не делает request на AJAX, а парсит...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Midnight Chicago Blues
kumehtar 24.03.2026
Такой Midnight Chicago Blues, знаешь?. . Когда вечерние улицы становятся ночными, а ты не можешь уснуть. Ты идёшь в любимый старый бар, и бармен наливает тебе виски. Ты смотришь на пролетающие. . .
Контроль уникальности заводского номера - вариант №2
Maks 24.03.2026
В отличие от предыдущего варианта добавлено прерывание циклов, также добавлены новые переменные для сохранения контекста ошибки перед прерыванием цикла: Процедура ПередЗаписью(Отказ, РежимЗаписи,. . .
SDL3 для Desktop (MinGW): Вывод текста со шрифтом TTF с помощью библиотеки SDL3_ttf на Си и C++
8Observer8 24.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-text-sdl3-c. zip finish-text-sdl3-cpp. zip
Жизнь в неопределённости
kumehtar 23.03.2026
Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .
Модель здравоСохранения: работники работают быстрее после её введения.
anaschu 23.03.2026
geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .
Контроль уникальности заводского номера - вариант №1
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере документа выдачи шин для спецтехники с табличной частью в КА2. Данные берутся из регистра сведений, по которому настроено. . .
Хочу заставить корпорации вкладываться в здоровье сотрудников: делаю мат модель здравосохранения
anaschu 22.03.2026
e7EYtONaj8Y Z4Tv2zpXVVo https:/ / github. com/ shumilovas/ med2. git
Программный отбор элементов справочника по группе
Maks 22.03.2026
Установка программного отбора элементов справочника "Номенклатура" из модуля формы документа в КА2. В качестве фильтра для отбора справочника служит группа номенклатуры. Отбор по наименованию. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru