Как получить из div только текст?

@makarworld · Регистрация: 04.11.2019

Студворк — интернет-сервис помощи студентам

Допустим я получаю с сайта hltv.org/matches html-код. Мне нужно получить из него время, когда будет сыгран матч, имена команд , и ссылку на этот матч. Программа получает список состоящий из <div> где всё это есть. Как мне избавится от всего кроме самих названий(текста написанного внутри div)?

@Welemir1 · 04.11.2019, 20:05

makarworld, ну покажи в коде что ты там достаешь и как. Есть атрибут текст обычно для этого

@volkomorov · 05.11.2019, 16:04

Python
1
2
3
4
from bs4 import BeautifulSoup as bs            
....
....
region = region.get_text(strip=True)

@makarworld · 05.11.2019, 16:17 **[ТС]**

Вот сам код, простите, забыл добавить

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
from bs4 import BeautifulSoup as bs
import requests
 
headers = {'accept': '*/*', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'}
 
base_url = 'https://www.hltv.org/matches'
 
def lf_parsing(base_url, headers) :
    session = requests.session()
    request = session.get(base_url, headers=headers)
    if request.status_code == 200 :
        soup = bs(request.content, 'html.parser')
        divs = soup.find_all(class_="a-reset block upcoming-match standard-box")
        for div in divs:
            time = div.find('a', attrs={"data-time-format":"HH:mm"}).text
            team = div.find('div', class_="team").text
            print(time, '\n', team)
    else:
        print('Провод перегрыз кот')
 
lf_parsing(base_url, headers)

Мой код выдаёт ошибку:
Traceback (most recent call last):
File "C:\Users\User\Desktop\parser\parser2.py ", line 21, in <module>
lf_parsing(base_url, headers)
File "C:\Users\User\Desktop\parser\parser2.py ", line 15, in lf_parsing
time = div.find('a', attrs={"data-time-format":"HH:mm"}).text
AttributeError: 'NoneType' object has no attribute 'text'

Добавлено через 5 минут
Ваш код(ниже) выдаёт ошибку

Python
1
2
3
4
5
6
7
8
9
10
from bs4 import BeautifulSoup as bs            
 
data = '''
    <div class="for-test" id="content-id">
        <span class="text">Team Spirit</span>
    </div>
'''
 
region = data.get_text(strip=True)
print(region)

Ошибка:
Traceback (most recent call last):
File "C:\Users\User\Desktop\parser\test.p y", line 9, in <module>
region = data.get_text(strip=True)
AttributeError: 'str' object has no attribute 'get_text'

@volkomorov · 05.11.2019, 16:26

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
from bs4 import BeautifulSoup as bs
import requests
 
headers = {'accept': '*/*', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'}
 
base_url = 'https://www.hltv.org/matches'
 
def lf_parsing(base_url, headers) :
    session = requests.session()
    request = session.get(base_url, headers=headers)
    if request.status_code == 200 :
        soup = bs(request.content, 'html.parser')
        divs = soup.find_all('a', attrs={'class', 'a-reset block upcoming-match standard-box'})
        for div in divs:
            time = div.find('div', attrs={'class', 'time'})
            time = time.get_text(strip=True)
            print(time)
            
            # Дальше думаю понятно будет
            team = div.find('div', class_="team")
            print(time, '\n', team)
    else:
        print('Провод перегрыз кот')
 
lf_parsing(base_url, headers)

PS: старайтесь не использовать имена методов time, date, .....

@makarworld · 05.11.2019, 16:58 **[ТС]**

Спасибо, важе решение помогло.

Новые блоги и статьи Все статьи Все блоги /
Оптимизация кода на разграничение прав доступа к элементам формы Maks 13.04.2026 Алгоритм из решения ниже реализован на нетиповом документе, разработанного в конфигурации КА2. Задачи, как таковой, поставлено не было, проделанное ниже исключительно моя инициатива. Было так:. . .	Контроль заполнения и очистка дат в зависимости от значения перечислений Maks 12.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .	Архитектура слоя интернета для сервера-слоя. Hrethgir 11.04.2026 В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .	Подстановка значения реквизита справочника в табличную часть документа Maks 10.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании Maks 09.04.2026 Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .	модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий anaschu 08.04.2026 https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI	Блокировка документа от изменений, если он открыт у другого пользователя Maks 08.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .	Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка. Hrethgir 08.04.2026 Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .

@makarworld 0 / 0 / 0 Регистрация: 04.11.2019 Сообщений: 15

	Как получить из div только текст? 04.11.2019, 18:48. Показов 3623. Ответов 5 Метки нет (Все метки) Допустим я получаю с сайта hltv.org/matches html-код. Мне нужно получить из него время, когда будет сыгран матч, имена команд , и ссылку на этот матч. Программа получает список состоящий из <div> где всё это есть. Как мне избавится от всего кроме самих названий(текста написанного внутри div)? 0

@Welemir1 Автоматизируй это! 7392 / 4819 / 1246 Регистрация: 30.03.2015 Сообщений: 13,694 Записей в блоге: 29
	04.11.2019, 20:05
	makarworld, ну покажи в коде что ты там достаешь и как. Есть атрибут текст обычно для этого 0

@makarworld 0 / 0 / 0 Регистрация: 04.11.2019 Сообщений: 15
	05.11.2019, 16:58 [ТС]
	Спасибо, важе решение помогло. 0

Как получить из div только текст?

Решение