Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/3: Рейтинг темы: голосов - 3, средняя оценка - 4.67
1 / 1 / 0
Регистрация: 20.10.2020
Сообщений: 50

Как извлечь выделенное определенным цветом слово?

27.06.2023, 15:26. Показов 604. Ответов 4

Студворк — интернет-сервис помощи студентам
Есть у меня код, занимающийся парсингом информации о конкурсах с сайта РНФ. Да-да, снова парсинги. Но не волнуйтесь, я уже знаю, что да как. И написал код. Он у меня работает как часы. Ошибок никаких не выдает.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
import requests
from bs4 import BeautifulSoup
import re
import os
from urllib.request import urlopen
import json
from urllib.parse import unquote
 
import warnings
warnings.filterwarnings("ignore")
 
BASE_URL = 'https://www.rscf.ru/contests'
 
session = requests.Session()
session.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0'
 
items = []
max_page = 10
for page in range(1, max_page + 1):
    url = f'{BASE_URL}/?PAGEN_2={page}/' if page > 1 else BASE_URL
    print(url)
 
    rs = session.get(url, verify=False)
    rs.raise_for_status()
 
    soup = BeautifulSoup(rs.content, 'html.parser')
    for item in soup.select('.classification-table-row.contest-table-row'):
        number = item.select_one('.contest-num').text
        title = item.select_one('.contest-name').text
        date = item.select_one('.contest-date').text.replace("\n", "")
        synopsis = item.select_one('.contest-status').text.replace("\n", " ")
        documents = item.select_one('.contest-docs').text.replace("\n", " ").replace("        ", " ").replace("    ", " ")
        items.append({
            'Номер': number,
            'Наименование конкурса': title,
            'Приём заявок': date,
            'Статус': synopsis,
            'Документы': documents,
        })
 
with open('out.json', 'w', encoding='utf-8') as f:
    json.dump(items, f, indent=4, ensure_ascii=False)
Всё работает, все в порядке. Есть один нюанс.
Дело в том, что на сайте есть такая фишка - цвет текста. В зависимости от того, действует ли конкурс или он завершён, статус окрашивается в определённый цвет. Если идёт приём заявок, то статус выделяется зелёным цветом. Если проводится экспертиза - оранжевый. А если конкурс завершён - красный. Вот тут конкурсы.
https://www.rscf.ru/contests/
И мне нужно, чтобы код выводил в JSON тот текст, который в HTML отмечен красным, оранжевым или зелёным цветом. К сожалению, в Интернете найти похожее мне не удалось. Там только коды, которые окрашивают текст в цвет. Но не извлекают готовый.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
27.06.2023, 15:26
Ответы с готовыми решениями:

Как обработать выделенное слово в C#?
У меня возникли проблемы с обработкой текста в TextBox. Есть текст, нужно выделить одно слово и перевести его на англ язык. Как...

Как добавить выделенное слово наподобие Т9?
Доброго времени суток, форумчане. Делаю вставку слов из словаря в win forms C# с помощью потоков, возникли трудности: 1.Как добавить...

Найти предложение в WebBrowser, выделенное синим цветом
Всем знатокам доброе время суток! В веббраузер загружен текст. Нужно найти в этом тексте предложение целиком вместе с тегами. ...

4
Любознательный
 Аватар для YuS_2
7404 / 2254 / 360
Регистрация: 10.03.2016
Сообщений: 5,213
27.06.2023, 16:42
Цитата Сообщение от lochin2 Посмотреть сообщение
Дело в том, что на сайте есть такая фишка - цвет текста.
Дело в том, что есть такая штука, как шаблоны стилей, вот с их помощью текст и раскрашивается.
Цитата Сообщение от lochin2 Посмотреть сообщение
мне нужно, чтобы код выводил в JSON тот текст, который в HTML отмечен красным, оранжевым или зелёным цветом.
смотрите dom-структуру страницы...
находите контейнеры div c классом .contest-status (в Вашем коде они уже присутствуют), далее в дочерних элементах ul ищите класс .contest-list - это то, что Вам требуется, в свою очередь, в их дочерних элементах li\span будут классы, определяющие цвет текста. То бишь, если у какого-то элемента нет присвоенного класса, то цвет текста будет унаследован от стиля контейнера div (серый цвет), а если у элемента span в наличии собственный класс, то он будет один из трех:
CSS
1
2
3
.contest-success {color: #00e145;}
.text-warning {color: #ffc107 !important;}
.contest-danger {color: #ff0000;}
- зеленый, оранжевый, красный... вот из этого и надо исходить, при составлении кода.
2
1 / 1 / 0
Регистрация: 20.10.2020
Сообщений: 50
29.06.2023, 13:46  [ТС]
Спасибо.
Пораскинув мозгами, я решил иначе и написал вот такой код:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
import requests
from bs4 import BeautifulSoup
import re
import os
from urllib.request import urlopen
import json
from urllib.parse import unquote
 
import warnings
warnings.filterwarnings("ignore")
 
BASE_URL = 'https://www.rscf.ru/contests'
 
session = requests.Session()
session.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0'
 
items = []
max_page = 10
for page in range(1, max_page + 1):
    url = f'{BASE_URL}/?PAGEN_2={page}/' if page > 1 else BASE_URL
    print(url)
 
    rs = session.get(url, verify=False)
    rs.raise_for_status()
 
    soup = BeautifulSoup(rs.content, 'html.parser')
    for item in soup.select('.classification-table-row.contest-table-row'):
        number = item.select_one('.contest-num').text
        title = item.select_one('.contest-name').text
        date = item.select_one('.contest-date').text.replace("\n", "").replace("Подать заявку", "")
        documents = item.select_one('.contest-docs').text.replace("\n", " ").replace("        ", " ").replace("    ", " ")
        try:
            synopsis = [s.get_text(strip=True) for s in item.select(".contest-status") if s.get_text(strip=True)]
            del synopsis[:1]
            syn = str(synopsis).replace("['", '').replace("']", '')
        except:
            synopsis = [s.get_text(strip=True) for s in item.select(".contest-success") if s.get_text(strip=True)]
            del synopsis[:1]
            syn = str(synopsis).replace("['", '').replace("']", '')
        items.append({
            'Номер': number,
            'Наименование конкурса': title,
            'Приём заявок': date,
            'Статус': syn,
            'Документы': documents,
        })
 
with open('out.json', 'w', encoding='utf-8') as f:
    json.dump(items, f, indent=4, ensure_ascii=False)
Результат:
JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
{
        "Номер": "92",
        "Наименование конкурса": " Конкурс на получение грантов РНФ по мероприятию «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»",
        "Приём заявок": "до 15.11.2023 17:00",
        "Статус": "Прием заявок",
        "Документы": " Извещение Конкурсная документация    "
    },
    {
        "Номер": "3005",
        "Наименование конкурса": "Конкурс на получение грантов РНФ «Проведение пилотных проектов НИОКР в рамках стратегических инициатив Президента РФ в научно-технологической сфере» по теме: «Разработка нитрид-галлиевого СВЧ-транзистора S-диапазона с выходной мощностью не менее 120 Вт»",
        "Приём заявок": "до 02.06.2023 17:00",
        "Статус": "Конкурс завершен",
        "Документы": " Извещение Конкурсная документация Список победителей "
    },
    {
Можете проверить, если что.
0
Любознательный
 Аватар для YuS_2
7404 / 2254 / 360
Регистрация: 10.03.2016
Сообщений: 5,213
29.06.2023, 14:53
Цитата Сообщение от lochin2 Посмотреть сообщение
Можете проверить, если что.
Ну, наверное, не так надо было...
В первоначальном варианте кода, вот эту строку:
Цитата Сообщение от lochin2 Посмотреть сообщение
synopsis = item.select_one('.contest-status').text.replace("\n", " ")
можно заменить на такую:
Python
1
synopsis = item.select_one('.contest-status').find_all('span',attrs={'class':True})[0].text
и ещё... у Вас там "магическое" число страниц:
Цитата Сообщение от lochin2 Посмотреть сообщение
max_page = 10
- если уж, парсер делать, то надо парсить и количество страниц...
0
1 / 1 / 0
Регистрация: 20.10.2020
Сообщений: 50
29.06.2023, 14:55  [ТС]
Спасибо за уточнение
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
29.06.2023, 14:55
Помогаю со студенческими работами здесь

Как отобрать картинки с определенным цветом?
Есть папка с картинками (около 1к). Как отобрать картинки, где есть красный цвет? В какую сторону смотреть и реально ли это вообще?

как заполнять фигуры определённым цветом?
Подскажите как??? или учебники где можно найти такую информацию. Среда C++ Builder 6.0

Как подсчитать сумму в ячейках с определенным цветом
есть несколько таблиц одной и той же длинны и высоты возможно подсчитать сумму в ячейках с определенным цветом? будет ли сохранятся...

Как закрасить разделитель QSplitter определенным цветом?
Как закрасить разделитель QSplitter определенным цветом?Точнее ту полоску, которая разделяет виджеты

Как извлечь в массив все элементы Html под определенным Div?
Я хочу поместить в массив заголовок, его фотографии (точнее ссылки), описание. Добавлено через 1 минуту вопрос решен. Добавлено...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит переходные токи и напряжения на элементах схемы. . . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru