Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/3: Рейтинг темы: голосов - 3, средняя оценка - 4.67
1 / 1 / 0
Регистрация: 20.10.2020
Сообщений: 50

Как извлечь выделенное определенным цветом слово?

27.06.2023, 15:26. Показов 617. Ответов 4

Студворк — интернет-сервис помощи студентам
Есть у меня код, занимающийся парсингом информации о конкурсах с сайта РНФ. Да-да, снова парсинги. Но не волнуйтесь, я уже знаю, что да как. И написал код. Он у меня работает как часы. Ошибок никаких не выдает.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
import requests
from bs4 import BeautifulSoup
import re
import os
from urllib.request import urlopen
import json
from urllib.parse import unquote
 
import warnings
warnings.filterwarnings("ignore")
 
BASE_URL = 'https://www.rscf.ru/contests'
 
session = requests.Session()
session.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0'
 
items = []
max_page = 10
for page in range(1, max_page + 1):
    url = f'{BASE_URL}/?PAGEN_2={page}/' if page > 1 else BASE_URL
    print(url)
 
    rs = session.get(url, verify=False)
    rs.raise_for_status()
 
    soup = BeautifulSoup(rs.content, 'html.parser')
    for item in soup.select('.classification-table-row.contest-table-row'):
        number = item.select_one('.contest-num').text
        title = item.select_one('.contest-name').text
        date = item.select_one('.contest-date').text.replace("\n", "")
        synopsis = item.select_one('.contest-status').text.replace("\n", " ")
        documents = item.select_one('.contest-docs').text.replace("\n", " ").replace("        ", " ").replace("    ", " ")
        items.append({
            'Номер': number,
            'Наименование конкурса': title,
            'Приём заявок': date,
            'Статус': synopsis,
            'Документы': documents,
        })
 
with open('out.json', 'w', encoding='utf-8') as f:
    json.dump(items, f, indent=4, ensure_ascii=False)
Всё работает, все в порядке. Есть один нюанс.
Дело в том, что на сайте есть такая фишка - цвет текста. В зависимости от того, действует ли конкурс или он завершён, статус окрашивается в определённый цвет. Если идёт приём заявок, то статус выделяется зелёным цветом. Если проводится экспертиза - оранжевый. А если конкурс завершён - красный. Вот тут конкурсы.
https://www.rscf.ru/contests/
И мне нужно, чтобы код выводил в JSON тот текст, который в HTML отмечен красным, оранжевым или зелёным цветом. К сожалению, в Интернете найти похожее мне не удалось. Там только коды, которые окрашивают текст в цвет. Но не извлекают готовый.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
27.06.2023, 15:26
Ответы с готовыми решениями:

Как обработать выделенное слово в C#?
У меня возникли проблемы с обработкой текста в TextBox. Есть текст, нужно выделить одно слово и перевести его на англ язык. Как...

Как добавить выделенное слово наподобие Т9?
Доброго времени суток, форумчане. Делаю вставку слов из словаря в win forms C# с помощью потоков, возникли трудности: 1.Как добавить...

Найти предложение в WebBrowser, выделенное синим цветом
Всем знатокам доброе время суток! В веббраузер загружен текст. Нужно найти в этом тексте предложение целиком вместе с тегами. ...

4
Любознательный
 Аватар для YuS_2
7406 / 2256 / 360
Регистрация: 10.03.2016
Сообщений: 5,216
27.06.2023, 16:42
Цитата Сообщение от lochin2 Посмотреть сообщение
Дело в том, что на сайте есть такая фишка - цвет текста.
Дело в том, что есть такая штука, как шаблоны стилей, вот с их помощью текст и раскрашивается.
Цитата Сообщение от lochin2 Посмотреть сообщение
мне нужно, чтобы код выводил в JSON тот текст, который в HTML отмечен красным, оранжевым или зелёным цветом.
смотрите dom-структуру страницы...
находите контейнеры div c классом .contest-status (в Вашем коде они уже присутствуют), далее в дочерних элементах ul ищите класс .contest-list - это то, что Вам требуется, в свою очередь, в их дочерних элементах li\span будут классы, определяющие цвет текста. То бишь, если у какого-то элемента нет присвоенного класса, то цвет текста будет унаследован от стиля контейнера div (серый цвет), а если у элемента span в наличии собственный класс, то он будет один из трех:
CSS
1
2
3
.contest-success {color: #00e145;}
.text-warning {color: #ffc107 !important;}
.contest-danger {color: #ff0000;}
- зеленый, оранжевый, красный... вот из этого и надо исходить, при составлении кода.
2
1 / 1 / 0
Регистрация: 20.10.2020
Сообщений: 50
29.06.2023, 13:46  [ТС]
Спасибо.
Пораскинув мозгами, я решил иначе и написал вот такой код:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
import requests
from bs4 import BeautifulSoup
import re
import os
from urllib.request import urlopen
import json
from urllib.parse import unquote
 
import warnings
warnings.filterwarnings("ignore")
 
BASE_URL = 'https://www.rscf.ru/contests'
 
session = requests.Session()
session.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0'
 
items = []
max_page = 10
for page in range(1, max_page + 1):
    url = f'{BASE_URL}/?PAGEN_2={page}/' if page > 1 else BASE_URL
    print(url)
 
    rs = session.get(url, verify=False)
    rs.raise_for_status()
 
    soup = BeautifulSoup(rs.content, 'html.parser')
    for item in soup.select('.classification-table-row.contest-table-row'):
        number = item.select_one('.contest-num').text
        title = item.select_one('.contest-name').text
        date = item.select_one('.contest-date').text.replace("\n", "").replace("Подать заявку", "")
        documents = item.select_one('.contest-docs').text.replace("\n", " ").replace("        ", " ").replace("    ", " ")
        try:
            synopsis = [s.get_text(strip=True) for s in item.select(".contest-status") if s.get_text(strip=True)]
            del synopsis[:1]
            syn = str(synopsis).replace("['", '').replace("']", '')
        except:
            synopsis = [s.get_text(strip=True) for s in item.select(".contest-success") if s.get_text(strip=True)]
            del synopsis[:1]
            syn = str(synopsis).replace("['", '').replace("']", '')
        items.append({
            'Номер': number,
            'Наименование конкурса': title,
            'Приём заявок': date,
            'Статус': syn,
            'Документы': documents,
        })
 
with open('out.json', 'w', encoding='utf-8') as f:
    json.dump(items, f, indent=4, ensure_ascii=False)
Результат:
JavaScript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
{
        "Номер": "92",
        "Наименование конкурса": " Конкурс на получение грантов РНФ по мероприятию «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»",
        "Приём заявок": "до 15.11.2023 17:00",
        "Статус": "Прием заявок",
        "Документы": " Извещение Конкурсная документация    "
    },
    {
        "Номер": "3005",
        "Наименование конкурса": "Конкурс на получение грантов РНФ «Проведение пилотных проектов НИОКР в рамках стратегических инициатив Президента РФ в научно-технологической сфере» по теме: «Разработка нитрид-галлиевого СВЧ-транзистора S-диапазона с выходной мощностью не менее 120 Вт»",
        "Приём заявок": "до 02.06.2023 17:00",
        "Статус": "Конкурс завершен",
        "Документы": " Извещение Конкурсная документация Список победителей "
    },
    {
Можете проверить, если что.
0
Любознательный
 Аватар для YuS_2
7406 / 2256 / 360
Регистрация: 10.03.2016
Сообщений: 5,216
29.06.2023, 14:53
Цитата Сообщение от lochin2 Посмотреть сообщение
Можете проверить, если что.
Ну, наверное, не так надо было...
В первоначальном варианте кода, вот эту строку:
Цитата Сообщение от lochin2 Посмотреть сообщение
synopsis = item.select_one('.contest-status').text.replace("\n", " ")
можно заменить на такую:
Python
1
synopsis = item.select_one('.contest-status').find_all('span',attrs={'class':True})[0].text
и ещё... у Вас там "магическое" число страниц:
Цитата Сообщение от lochin2 Посмотреть сообщение
max_page = 10
- если уж, парсер делать, то надо парсить и количество страниц...
0
1 / 1 / 0
Регистрация: 20.10.2020
Сообщений: 50
29.06.2023, 14:55  [ТС]
Спасибо за уточнение
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
29.06.2023, 14:55
Помогаю со студенческими работами здесь

Как отобрать картинки с определенным цветом?
Есть папка с картинками (около 1к). Как отобрать картинки, где есть красный цвет? В какую сторону смотреть и реально ли это вообще?

как заполнять фигуры определённым цветом?
Подскажите как??? или учебники где можно найти такую информацию. Среда C++ Builder 6.0

Как подсчитать сумму в ячейках с определенным цветом
есть несколько таблиц одной и той же длинны и высоты возможно подсчитать сумму в ячейках с определенным цветом? будет ли сохранятся...

Как закрасить разделитель QSplitter определенным цветом?
Как закрасить разделитель QSplitter определенным цветом?Точнее ту полоску, которая разделяет виджеты

Как извлечь в массив все элементы Html под определенным Div?
Я хочу поместить в массив заголовок, его фотографии (точнее ссылки), описание. Добавлено через 1 минуту вопрос решен. Добавлено...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru