Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.57/7: Рейтинг темы: голосов - 7, средняя оценка - 4.57
1 / 1 / 0
Регистрация: 17.08.2017
Сообщений: 142

Как исключить id при парсинге?

23.01.2020, 17:47. Показов 1552. Ответов 3

Студворк — интернет-сервис помощи студентам
Код следующий:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
import requests
from bs4 import BeautifulSoup
 
 
def html(url):
    page = requests.get(url)
    page.encoding = 'UTF-8'
    return page.text
 
 
def code(page):
    file = BeautifulSoup(page, 'lxml')
    news = file.find(class_="content-block", id="news").find_all('a')
    print(news)
    heads = []
 
    f = 0
    for i in news:
 
        if i.string:
            f += 1
            ss = 'https://3dnews.ru/' + i.get('href')
            heads.append({'text': i.string.strip(),
                          'ss': ss,
                          'f': f})
    return heads
 
 
for i in code(html(r'https://3dnews.ru/')):
    print(f'{i["f"]}){i["text"]} : {i["ss"]}', end='\n**********\n', sep='')
Хочу исключить id = 'mainNewsLabel'
Сайт : (https://3dnews.ru/)

Добавлено через 11 минут
Конечно можно их потом удалить , но это костыль.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
23.01.2020, 17:47
Ответы с готовыми решениями:

Как игнорировать ошибки при парсинге?
Если такой код не находит совпадения с Селениум, то как прописать, чтобы в консоли, в связи с этим, не показывались ошибки? info1 =...

Сессия при парсинге, как избавиться
WebRequest request = WebRequest.Create("http://cyberteam.su/aut.php"); HttpWebResponse httpWebResponse = (HttpWebResponse)...

Как убрать пробелы при парсинге
Доброго времени суток, при парсинге выводит много пробелов а потом только сам парс, как можно убрать пробелы ?, их количество везде...

3
 Аватар для Matrix3007
198 / 164 / 41
Регистрация: 13.05.2019
Сообщений: 844
24.01.2020, 10:57
Что на выходе должно быть?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
24.01.2020, 12:28
Цитата Сообщение от David099 Посмотреть сообщение
но это костыль.
Учи lxml и XPATH и будет тебе счастье.
0
1 / 1 / 0
Регистрация: 17.08.2017
Сообщений: 142
25.01.2020, 01:10  [ТС]
1)Главное : https://3dnews.ru//news/main
**********
2)Российские процессоры нового поколения «Эльбрус-16С» появятся в 2022 году: 16 нм, 1,5 ГГц и поддержка DDR4-2400 : https://3dnews.ru//1002187
**********
3)МВД России переходит на Linux : https://3dnews.ru//1002173
**********
4)Обзор смартфона OnePlus 7T: король из среднего класса? : https://3dnews.ru//1002099/obzor-oneplus-7t
**********
5)Обзор iSCSI СХД Synology UC3200: одна голова хорошо, а две — лучше : https://3dnews.ru/https://servernews.ru/1000530

Но без главного(1) ,но с описанием: Стало известно о том, что опытно-конструкторские работы по российским микропроцессорам следующего поколения «Эльбрус-16С» будут завершены в декабре этого года. Об этом сообщил представитель пресс-службы АО МЦСТ Максим Горшенин( к примеру).

Добавлено через 2 часа 49 минут
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
import requests
from bs4 import BeautifulSoup
 
 
def html(url):
    page = requests.get(url)
    page.encoding = 'UTF-8'
    return page.text
 
 
def code(page):
    file = BeautifulSoup(page, 'lxml')
    news = file.find(class_="content-block", id="news").find_all('a')
    Tuple = file.find(class_="content-block", id="news").find_all('div', class_="teaser")
 
    heads = []
    tut = ['']
    f = 0
 
    for i in Tuple:  # Описание
        if i.string:  # Только если i это текст
            tut.append(i.string.strip())
    for i in news:  # Заголовки статей и ссылки на них
        if i.string:  # Только если i это текст
            f += 1  # № новости
            ss = 'https://3dnews.ru/' + i.get('href')
            heads.append({'text': i.string.strip(),
                          'ss': ss,
                          'f': f})
 
    return heads, tut
 
 
heads, tut = code(html(r'https://3dnews.ru/'))
n = 0
for i in heads:
    print(f'{i["f"]}){i["text"]} : {i["ss"]}\n\n{tut[n]}', end='\n**********\n', sep='')
    n += 1
Вот код , как уменьшить и улучшить?
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
25.01.2020, 01:10
Помогаю со студенческими работами здесь

Как убрать зависание программы при парсинге
Собственно есть программа, которая парсит некоторые значения. Ф-ия парса: Public Shared Function Pars(ByRef strSource As String,...

Как удалить тег при парсинге сайта
при парсинге сайта funpay, то что спарсилось пишется в ткст файл и мне нужно что бы парсилось без "<div...

Как установить значение в комбобоксе при парсинге?
Как в комбобоксе при загрузке страницы установить значения по индексу из объектов js ? т.е. в json принимаю марку автомобиля и ее цвет в...

Как изменить кодировку при парсинге http.get?
когда я парсю регуляркой через исходный код страницы http.get ,то текст отображается так:...

Как выудить необходимы данные при парсинге
Добрый день Мне необходимо спарсить данную страницу https://students.bmstu.ru/schedule/list так, чтобы после завершения работы программы,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
моя боль
iceja 24.01.2026
Выложила интерполяцию кубическими сплайнами www. iceja. net REST сервисы временно не работают, только через Web. Написала за 56 рабочих часов этот сайт с нуля. При помощи perplexity. ai PRO , при. . .
Модель сукцессии микоризы
anaschu 24.01.2026
Решили писать научную статью с неким РОманом
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь(не выше 3-го порядка) постоянного тока с элементами R, L, C, k(ключ), U, E, J. Программа находит переходные токи и напряжения на элементах схемы классическим методом(1 и 2 з-ны. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru