Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.57/7: Рейтинг темы: голосов - 7, средняя оценка - 4.57
 Аватар для Марс313
0 / 0 / 0
Регистрация: 23.12.2018
Сообщений: 55

Посчитайте распределение тематик новостей в файле

18.08.2022, 09:45. Показов 1385. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет! Есть задача по Python ,не могу доделать. Свой код представил ниже.
Спасибо большое.

Описание задания:
1Посчитайте распределение тематик новостей в файле URL.txt (то есть какое количество раз встречается страница с каждой темой). Тематикой можно считать первое слово между знаками '/' в URL новости.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
from collections import Counter
import re
pattern = '.*/[0-9]{8}'
prog = re.compile( pattern )
a = []
o = open('urls.txt', 'r')
f = list(set(o))
st = str(f).split('/')
category_audience = zip( st )
for element in category_audience:
    a.append( element )
c = Counter(a)
print(c)
Вложения
Тип файла: txt URLs.txt (5.9 Кб, 5 просмотров)
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
18.08.2022, 09:45
Ответы с готовыми решениями:

Распределение новостей
Нужно убрать отступ слева от кнопки сортировки? Сайт http://torrentbest.org Если сортировать статьи, например по популярности, то...

Посчитайте количество цифр в файле
Создайте текстовый файл в который запишите и цифры. Выведите его содержимое на экран, посчитайте количество цифр и выведите их также на...

Посчитайте число единиц в файле
Посчитайте число единиц в файле формата csv. Первая строка файла содержит номера столбцов, первый столбец содержит индексы строк. ...

3
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
18.08.2022, 10:35
Лучший ответ Сообщение было отмечено Марс313 как решение

Решение

Не по теме:

Смешались вместе кони, люди...



Добавлено через 11 минут
Python
1
2
3
4
import re
 
with open('URLs.txt', 'r') as f:
    first_words = re.findall(r'(?m)(?<=^/)\w+', f.read())
1
 Аватар для Марс313
0 / 0 / 0
Регистрация: 23.12.2018
Сообщений: 55
18.08.2022, 13:32  [ТС]
Хотел бы уточнить, что значит
Python
1
first_words = re.findall(r'(?m)(?<=^/)\w+', f.read())
0
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
18.08.2022, 13:40
f.read() - прочитали весь файл
re.findall - ищем в нем все совпадения согласно регулярки
(?m) - флаг multiline, чтоб регулярка рассматривала текст как строки, а не как монолит (1 строка)
\w+ - непрерывная последовательность из букофф, цифер и подчеркивания. Слово то бишь, ...
(?<=^/) - ... непосредственно перед которым стоит начало строки (^) и слеш.

В итоге получаем список искомых слов - first_words
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
18.08.2022, 13:40
Помогаю со студенческими работами здесь

Распределение памяти в двоичном файле
Если содержимое двоичного файла при каждом запуске программы переписывается от начала до конца, то он всегда будет содержать только...

На сайте появилось много тематик
Вопрос такой! На сайте появилось слишком много тематик, сами понимаете что поднять в выдаче стало все сложнее. Сами понимаете сайт лицо...

Продвижение комерческих тематик ссылками
Здравствуйте! Как известно, яндекс пытается минимально сократить воздействие ссылок на продвижение. Вот хочу возобновить свой ИМ, как...

Вопрос о распозновании Яшей схожих тематик
Возможно, это обсуждалось - не нашел! Не могу взять в толк: Существует данное, что ссылки с сайтов схожей тематики имеют более высокий...

нормальна баннерная сеть игровых тематик???
кто знает такие обменники? :\&quot;&gt;


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит переходные токи и напряжения на элементах схемы. . . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru