Частотный анализ

@Muzzy2000 · Регистрация: 15.08.2017

Студворк — интернет-сервис помощи студентам

Добрый день
Возникла проблема с задачей
Условие: Дан текст. Выведите все слова, встречающиеся в тексте, по одному на каждую строку. Слова должны быть отсортированы по убыванию их количества появления в тексте, а при одинаковой частоте появления — в лексикографическом порядке.

Указание.
После того, как вы создадите словарь всех слов, вам захочется отсортироватьего по частоте встречаемости слова. Желаемого можно добиться, если создать список, элементами которого будут кортежи из двух элементов: частота встречаемости словаи само слово. Например, [(2, 'hi'), (1, 'what'), (3, 'is')]. Тогда стандартная сортировка будет сортировать список кортежей, при этом кортежи сравниваются по первому элементу, а если они равны —то по второму. Это почти то, что требуется в задаче.

Тест 1
Входные данные:

Кликните здесь для просмотра всего текста

hi
hi
what is your name
my name is bond
james bond
my name is damme
van damme
claude van damme
jean claude van damme

Вывод программы:

Кликните здесь для просмотра всего текста

damme
is
name
van
bond
claude
hi
my
james
jean
what
your

Собственно, набросал следующий код:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
inFile = open('input.txt', 'r', encoding='utf8')
n = []
for l in inFile:
   n += l.strip().split()
 
words = dict()
for w in n:
   if w in words:
      words[w] += 1
   else:
      words[w] = 0
 
MyList = list(words)
print(MyList)
i = 0
for w in words:
    i += 1
    MyList[i-1] = (words[w], w)
 
MegaList = sorted(MyList, key=lambda x: x[0], reverse=True)
print(*MegaList)

Но он сортирует вывод только по количеству упоминаний слова. Совершенно не могу понять как сделать так что бы в отсортированном списке выполнялась еще одна сортировка - уже по алфавиту - внутри каждого подмножества.

Jabbson · 15.08.2017, 19:29

Python
1
2
3
4
5
6
7
8
9
10
11
12
s = '''hi
hi
what is your name
my name is bond
james bond
my name is damme
van damme
claude van damme
jean claude van damme'''
 
lst = [word for line in s.split('\n') for word in line.split()]
print(sorted(set(lst), key=lambda x: (-lst.count(x), x)))

@Muzzy2000 · 15.08.2017, 20:07 **[ТС]**

Огромное спасибо за скорый ответ.
Но, в таком изящном виде код не проходит ограничение по времени в 1000 мс.
Test 8 Time Limit Exceeded

@Garry Galler · 15.08.2017, 23:47

Python
1
2
3
4
5
6
7
8
9
10
def word_counter():
    result = {}
    for line in open('input.txt'):
        for word in line.split():
            result[word] = result.get(word, 0) + 1  # вместо этого можно использовать setdefault или defaultdict
    # меняем местами
    result = [(v,k) for k, v in result.items()]
    # сортировка будет автоматически сначала по первому значению, затем по второму
    result = sorted(result,reverse=True) 
    print(*[t[1] for t in result],sep='\n')

P.S. Время выполнения не более 0.01 сек.

Добавлено через 3 минуты
P.S. Сортировка, впрочем, не совпадет с нужным выводом программы.

Добавлено через 52 минуты
P.P.S. Кстати, код Jabbson, делает нужную сортировку и работает также не более 0.01 сек.
Так что очень странно, что он не проходит у вас проверку по времени.

Python
1
2
3
lst = [word for line in open('input.txt') 
                            for word in line.split()]
print(*sorted(set(lst), key=lambda x: (-lst.count(x), x)),sep='\n')

@Muzzy2000 · 16.08.2017, 02:55 **[ТС]**

Да, вот я тоже получил такую сортировку, как в вашем коде. А вот как внутри каждого объединения слов по количеству упоминаний сделать еще одну обратную сортировку уже по алфавиту, вот вопрос. Код от Jabbson прекрасен, работает как надо, но сверхзадачи - выполнения тестового задания - он не может решить. Встроенная проверка слишком долго его выполняет. Спасибо за участие. Ковыряюсь дальше.

@pyuser · 16.08.2017, 04:41

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
from collections import defaultdict
 
text = """
hi
hi
what is your name
my name is bond
james bond
my name is damme
van damme
claude van damme
jean claude van damme 
""".strip()
 
words = defaultdict(int)
for line in text.splitlines():
    for word in line.strip().split():
        words[word] += 1
        
frequency = defaultdict(list)
for word, freq in words.items():
    frequency[freq].append(word)
    
for freq, words in sorted(frequency.items(), key=lambda x: x[0], reverse=True):
    for word in sorted(words):
        print(word)

Рыжий Лис · 16.08.2017, 05:28

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
#!/usr/bin/env python3
import re
from collections import Counter
 
t = '''\
hi
hi
what is your name
my name is bond
james bond
my name is damme
van damme
claude van damme
jean claude van damme
'''
 
words = re.findall(r'\w+', t)
d = Counter(words)
ls = [k for k, v in d.most_common()]
print('\n'.join(ls))

@Muzzy2000 · 16.08.2017, 20:51 **[ТС]**

Спасибо огромное за ваши решения. Вариант от pyuser прошел проверку на ура. Хотелось бы проверить вариант и от Рыжего Лиса. Но почему-то не получается передать из файла исходные данные туда.=(

@Pavelpds · 02.02.2019, 19:50

Еще один вариант решения:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import sys
 
letS = (str(sys.stdin.read()).split())
myLets = {}
for let in letS:
    myLets[let] = myLets.get(let, 0) + 1
myLets = [(fr, lt) for lt, fr in myLets.items()] #menyaem mestami 
 
 
def makeSort(lws):
    return (-lws[0], lws[1])
 
 
myLets.sort(key=makeSort)
for i in range(len(myLets)):
    print(myLets[i][1])

@maaxka · 24.02.2019, 22:46

Pavelpds спасибо за твое решение, тестирующая система пропустила именно этот вариант решения

@AuditP1979 · 19.05.2019, 19:54

Павел, а можно краткое пояснение, как работает эта часть кода?
Уж очень здорово получается.

Python
1
2
def makeSort(lws):
    return (-lws[0], lws[1])

@12LOVE12 · 28.02.2021, 19:52

а как код будет выглядеть в таком случае Дан текст на языке племени Мумба-Юмба (файл 87.txt). Выведите все слова, встречающиеся в тексте, разделяя их пробелом. Слова должны быть отсортированы по убыванию их количества появления в тексте, а при одинаковой частоте появления — в алфавитном порядке

@ilstep · 09.08.2025, 14:45

Можно использовать Counter

Python
1
2
3
4
5
6
7
import sys, collections
 
Sl = collections.Counter(str(sys.stdin.read()).split())
rez = Sl.most_common()
rez.sort(key = lambda x:(-x[1], x[0]))
for z in rez:
    print(z[0])

или так

Python
1
2
3
4
import sys, collections
rez = collections.Counter(str(sys.stdin.read()).split()).most_common()
for x in sorted(rez, key = lambda x:(-x[1], x[0])):
    print(x[0])

Новые блоги и статьи Все статьи Все блоги /
Кому нужен AOT? DevAlt 26.03.2026 Решил сделать простой ланчер Написал заготовку: dotnet new console --aot -o UrlHandler var items = args. Split(":"); var tag = items; var id = items; var executable = args;. . .	Отправка уведомления на почту при изменении наименования справочника Maks 24.03.2026 Программная отправка письма электронной почты на примере изменения наименования типового справочника "Склады" в конфигурации БП3. Перед реализацией необходимо выполнить настройку системной учетной. . .	модель ЗдравоСохранения 5. Меньше увольнений- больше дохода! anaschu 24.03.2026 Теперь система здравосохранения уменьшает количество увольнений. 9TO2GP2bpX4 a42b81fb172ffc12ca589c7898261ccb/ https:/ / rutube. ru/ video/ a42b81fb172ffc12ca589c7898261ccb/ Слева синяя линия -. . .	Midnight Chicago Blues kumehtar 24.03.2026 Такой Midnight Chicago Blues, знаешь?. . Когда вечерние улицы становятся ночными, а ты не можешь уснуть. Ты идёшь в любимый старый бар, и бармен наливает тебе виски. Ты смотришь на пролетающие. . .
SDL3 для Desktop (MinGW): Вывод текста со шрифтом TTF с помощью библиотеки SDL3_ttf на Си и C++ 8Observer8 24.03.2026 Содержание блога Финальные проекты на Си и на C++: finish-text-sdl3-c. zip finish-text-sdl3-cpp. zip	Жизнь в неопределённости kumehtar 23.03.2026 Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .	Модель здравоСохранения: работники работают быстрее после её введения. anaschu 23.03.2026 geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .	Контроль уникальности заводского номера Maks 23.03.2026 Алгоритм контроля уникальности заводского (или серийного) номера на примере нетипового документа выдачи шин для спецтехники с табличной частью, разработанного в конфигурации КА2. Номеклатура. . .

@Muzzy2000 9 / 9 / 0 Регистрация: 15.08.2017 Сообщений: 10
	15.08.2017, 20:07 [ТС]
	Огромное спасибо за скорый ответ. Но, в таком изящном виде код не проходит ограничение по времени в 1000 мс. Test 8 Time Limit Exceeded 0

@Muzzy2000 9 / 9 / 0 Регистрация: 15.08.2017 Сообщений: 10
	16.08.2017, 02:55 [ТС]
	Да, вот я тоже получил такую сортировку, как в вашем коде. А вот как внутри каждого объединения слов по количеству упоминаний сделать еще одну обратную сортировку уже по алфавиту, вот вопрос. Код от Jabbson прекрасен, работает как надо, но сверхзадачи - выполнения тестового задания - он не может решить. Встроенная проверка слишком долго его выполняет. Спасибо за участие. Ковыряюсь дальше. 0

@Muzzy2000 9 / 9 / 0 Регистрация: 15.08.2017 Сообщений: 10
	16.08.2017, 20:51 [ТС]
	Спасибо огромное за ваши решения. Вариант от pyuser прошел проверку на ура. Хотелось бы проверить вариант и от Рыжего Лиса. Но почему-то не получается передать из файла исходные данные туда.=( 1

@maaxka 2 / 2 / 0 Регистрация: 08.11.2018 Сообщений: 3
	24.02.2019, 22:46
	Pavelpds спасибо за твое решение, тестирующая система пропустила именно этот вариант решения 1

@12LOVE12 0 / 0 / 0 Регистрация: 13.11.2020 Сообщений: 26
	28.02.2021, 19:52
	а как код будет выглядеть в таком случае Дан текст на языке племени Мумба-Юмба (файл 87.txt). Выведите все слова, встречающиеся в тексте, разделяя их пробелом. Слова должны быть отсортированы по убыванию их количества появления в тексте*, а при одинаковой частоте появления — в алфавитном порядке* 0

Частотный анализ

Решение