Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.61/18: Рейтинг темы: голосов - 18, средняя оценка - 4.61
0 / 0 / 0
Регистрация: 04.11.2019
Сообщений: 15

Как получить из div только текст?

04.11.2019, 18:48. Показов 3623. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Допустим я получаю с сайта hltv.org/matches html-код. Мне нужно получить из него время, когда будет сыгран матч, имена команд , и ссылку на этот матч. Программа получает список состоящий из <div> где всё это есть. Как мне избавится от всего кроме самих названий(текста написанного внутри div)?
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
04.11.2019, 18:48
Ответы с готовыми решениями:

Как получить выделенный текст (не из textarea, а из div)
Как получить выделенный текст (не из textarea, а из div), а также начало и конец выделенного текста?

Как получить дочерний элемент DIV'а, зная только его id?
Есть . Внутри него с неизвестным уровнем вложенности находится текстовое поле с определенным id. Текстовые поля с таким же id есть и в...

Как по клику получить текст только одной конкретной строки?
Приветствую. Есть вот такое: &lt;div id=&quot;zayka&quot;&gt;&lt;/div&gt; var zayka = document.getElementById('zayka'); *...

5
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,694
Записей в блоге: 29
04.11.2019, 20:05
makarworld, ну покажи в коде что ты там достаешь и как. Есть атрибут текст обычно для этого
0
150 / 120 / 36
Регистрация: 01.11.2019
Сообщений: 425
05.11.2019, 16:04
Python
1
2
3
4
from bs4 import BeautifulSoup as bs            
....
....
region = region.get_text(strip=True)
0
0 / 0 / 0
Регистрация: 04.11.2019
Сообщений: 15
05.11.2019, 16:17  [ТС]
Вот сам код, простите, забыл добавить

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
from bs4 import BeautifulSoup as bs
import requests
 
headers = {'accept': '*/*', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'}
 
base_url = 'https://www.hltv.org/matches'
 
def lf_parsing(base_url, headers) :
    session = requests.session()
    request = session.get(base_url, headers=headers)
    if request.status_code == 200 :
        soup = bs(request.content, 'html.parser')
        divs = soup.find_all(class_="a-reset block upcoming-match standard-box")
        for div in divs:
            time = div.find('a', attrs={"data-time-format":"HH:mm"}).text
            team = div.find('div', class_="team").text
            print(time, '\n', team)
    else:
        print('Провод перегрыз кот')
 
lf_parsing(base_url, headers)
Мой код выдаёт ошибку:
Traceback (most recent call last):
File "C:\Users\User\Desktop\parser\parser2.py ", line 21, in <module>
lf_parsing(base_url, headers)
File "C:\Users\User\Desktop\parser\parser2.py ", line 15, in lf_parsing
time = div.find('a', attrs={"data-time-format":"HH:mm"}).text
AttributeError: 'NoneType' object has no attribute 'text'

Добавлено через 5 минут
Ваш код(ниже) выдаёт ошибку
Python
1
2
3
4
5
6
7
8
9
10
from bs4 import BeautifulSoup as bs            
 
data = '''
    <div class="for-test" id="content-id">
        <span class="text">Team Spirit</span>
    </div>
'''
 
region = data.get_text(strip=True)
print(region)
Ошибка:
Traceback (most recent call last):
File "C:\Users\User\Desktop\parser\test.p y", line 9, in <module>
region = data.get_text(strip=True)
AttributeError: 'str' object has no attribute 'get_text'
0
150 / 120 / 36
Регистрация: 01.11.2019
Сообщений: 425
05.11.2019, 16:26
Лучший ответ Сообщение было отмечено makarworld как решение

Решение

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
from bs4 import BeautifulSoup as bs
import requests
 
headers = {'accept': '*/*', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'}
 
base_url = 'https://www.hltv.org/matches'
 
def lf_parsing(base_url, headers) :
    session = requests.session()
    request = session.get(base_url, headers=headers)
    if request.status_code == 200 :
        soup = bs(request.content, 'html.parser')
        divs = soup.find_all('a', attrs={'class', 'a-reset block upcoming-match standard-box'})
        for div in divs:
            time = div.find('div', attrs={'class', 'time'})
            time = time.get_text(strip=True)
            print(time)
            
            # Дальше думаю понятно будет
            team = div.find('div', class_="team")
            print(time, '\n', team)
    else:
        print('Провод перегрыз кот')
 
lf_parsing(base_url, headers)
PS: старайтесь не использовать имена методов time, date, .....
1
0 / 0 / 0
Регистрация: 04.11.2019
Сообщений: 15
05.11.2019, 16:58  [ТС]
Спасибо, важе решение помогло.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
05.11.2019, 16:58
Помогаю со студенческими работами здесь

Как вытащить текст из div в котором есть еще div
Проблема: При парсинге нашел нужный div с нужным текстом, но оказалось, что при выводе, появляется еще лишний текст, так как в нужном...

Получить текст в нескольких div-ах
Есть некоторая разметка &lt;li class=&quot;contact&quot;&gt; &lt;div class=&quot;wrap&quot;&gt; &lt;span class=&quot;contact-status online&quot;&gt;&lt;/span&gt; &lt;img...

Как растянуть основной div до футера и разместить текст ровно центру этого div?
Всем привет, решил попробовать создать простейший резиновый сайт и чтобы футер был привязан внизу, чтобы не писать стандартную форму...

Получить текст между тегами div
есть вот такое вот html &lt;div class=&quot;item_desc_description&quot;&gt; &lt;h1 class=&quot;hover_item_name&quot;...

Как получить ответ от сайта чтобы подгружались не только текст и ссылки но и картинки?
Написал проксю, она работает адекватно, клиент должен установить ее для работы с одним сайтом. Она перехватывает от клиента запросы, сама...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Оптимизация кода на разграничение прав доступа к элементам формы
Maks 13.04.2026
Алгоритм из решения ниже реализован на нетиповом документе, разработанного в конфигурации КА2. Задачи, как таковой, поставлено не было, проделанное ниже исключительно моя инициатива. Было так:. . .
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru