Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
 
Рейтинг 4.54/302: Рейтинг темы: голосов - 302, средняя оценка - 4.54
9 / 9 / 0
Регистрация: 15.08.2017
Сообщений: 10
1

Частотный анализ

15.08.2017, 18:19. Показов 56934. Ответов 11

Добрый день
Возникла проблема с задачей
Условие: Дан текст. Выведите все слова, встречающиеся в тексте, по одному на каждую строку. Слова должны быть отсортированы по убыванию их количества появления в тексте, а при одинаковой частоте появления — в лексикографическом порядке.

Указание.
После того, как вы создадите словарь всех слов, вам захочется отсортироватьего по частоте встречаемости слова. Желаемого можно добиться, если создать список, элементами которого будут кортежи из двух элементов: частота встречаемости словаи само слово. Например, [(2, 'hi'), (1, 'what'), (3, 'is')]. Тогда стандартная сортировка будет сортировать список кортежей, при этом кортежи сравниваются по первому элементу, а если они равны —то по второму. Это почти то, что требуется в задаче.

Тест 1
Входные данные:
Кликните здесь для просмотра всего текста
hi
hi
what is your name
my name is bond
james bond
my name is damme
van damme
claude van damme
jean claude van damme


Вывод программы:
Кликните здесь для просмотра всего текста
damme
is
name
van
bond
claude
hi
my
james
jean
what
your


Собственно, набросал следующий код:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
inFile = open('input.txt', 'r', encoding='utf8')
n = []
for l in inFile:
___n += l.strip().split()
 
words = dict()
for w in n:
___if w in words:
______words[w] += 1
___else:
______words[w] = 0
 
MyList = list(words)
print(MyList)
i = 0
for w in words:
___i += 1
___MyList[i-1] = (words[w], w)
 
MegaList = sorted(MyList, key=lambda x: x[0], reverse=True)
print(*MegaList)
Но он сортирует вывод только по количеству упоминаний слова. Совершенно не могу понять как сделать так что бы в отсортированном списке выполнялась еще одна сортировка - уже по алфавиту - внутри каждого подмножества.
__________________
Помощь в написании контрольных, курсовых и дипломных работ здесь
0
Лучшие ответы (1)
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
15.08.2017, 18:19
Ответы с готовыми решениями:

Частотный анализ – 1
Дан текст на русском языке. Посчитайте, сколько раз встречается в тексте каждое слово. Слово —...

Частотный анализ – 1
Дан текст на русском языке. Посчитайте, сколько раз встречается в тексте каждое слово. Слово —...

Частотный анализ
Дан текст на русском языке. Посчитайте, сколько раз встречается в тексте каждое слово. Слово —...

Маленький частотный анализ
Помогите исправить код. Условие задачи: Частотный анализ — это подсчёт, какие символы чаще...

11
Эксперт по компьютерным сетям
4846 / 2741 / 837
Регистрация: 03.11.2009
Сообщений: 8,419
Записей в блоге: 3
15.08.2017, 19:29 2
Python
1
2
3
4
5
6
7
8
9
10
11
12
s = '''hi
hi
what is your name
my name is bond
james bond
my name is damme
van damme
claude van damme
jean claude van damme'''
 
lst = [word for line in s.split('\n') for word in line.split()]
print(sorted(set(lst), key=lambda x: (-lst.count(x), x)))
1
9 / 9 / 0
Регистрация: 15.08.2017
Сообщений: 10
15.08.2017, 20:07  [ТС] 3
Огромное спасибо за скорый ответ.
Но, в таком изящном виде код не проходит ограничение по времени в 1000 мс.
Test 8 Time Limit Exceeded
0
Эксперт Python
5177 / 3698 / 1174
Регистрация: 28.10.2013
Сообщений: 9,288
Записей в блоге: 1
15.08.2017, 23:47 4
Python
1
2
3
4
5
6
7
8
9
10
def word_counter():
    result = {}
    for line in open('input.txt'):
        for word in line.split():
            result[word] = result.get(word, 0) + 1  # вместо этого можно использовать setdefault или defaultdict
    # меняем местами
    result = [(v,k) for k, v in result.items()]
    # сортировка будет автоматически сначала по первому значению, затем по второму
    result = sorted(result,reverse=True) 
    print(*[t[1] for t in result],sep='\n')
P.S. Время выполнения не более 0.01 сек.

Добавлено через 3 минуты
P.S. Сортировка, впрочем, не совпадет с нужным выводом программы.

Добавлено через 52 минуты
P.P.S. Кстати, код Jabbson, делает нужную сортировку и работает также не более 0.01 сек.
Так что очень странно, что он не проходит у вас проверку по времени.
Python
1
2
3
lst = [word for line in open('input.txt') 
                            for word in line.split()]
print(*sorted(set(lst), key=lambda x: (-lst.count(x), x)),sep='\n')
2
9 / 9 / 0
Регистрация: 15.08.2017
Сообщений: 10
16.08.2017, 02:55  [ТС] 5
Да, вот я тоже получил такую сортировку, как в вашем коде. А вот как внутри каждого объединения слов по количеству упоминаний сделать еще одну обратную сортировку уже по алфавиту, вот вопрос. Код от Jabbson прекрасен, работает как надо, но сверхзадачи - выполнения тестового задания - он не может решить. Встроенная проверка слишком долго его выполняет. Спасибо за участие. Ковыряюсь дальше.
0
219 / 204 / 63
Регистрация: 26.05.2011
Сообщений: 363
16.08.2017, 04:41 6
Лучший ответ Сообщение было отмечено Muzzy2000 как решение

Решение

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
from collections import defaultdict
 
text = """
hi
hi
what is your name
my name is bond
james bond
my name is damme
van damme
claude van damme
jean claude van damme 
""".strip()
 
words = defaultdict(int)
for line in text.splitlines():
    for word in line.strip().split():
        words[word] += 1
        
frequency = defaultdict(list)
for word, freq in words.items():
    frequency[freq].append(word)
    
for freq, words in sorted(frequency.items(), key=lambda x: x[0], reverse=True):
    for word in sorted(words):
        print(word)
3
Просто Лис
Эксперт Python
4410 / 2807 / 929
Регистрация: 17.05.2012
Сообщений: 8,190
Записей в блоге: 9
16.08.2017, 05:28 7
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
#!/usr/bin/env python3
import re
from collections import Counter
 
t = '''\
hi
hi
what is your name
my name is bond
james bond
my name is damme
van damme
claude van damme
jean claude van damme
'''
 
words = re.findall(r'\w+', t)
d = Counter(words)
ls = [k for k, v in d.most_common()]
print('\n'.join(ls))
3
9 / 9 / 0
Регистрация: 15.08.2017
Сообщений: 10
16.08.2017, 20:51  [ТС] 8
Спасибо огромное за ваши решения. Вариант от pyuser прошел проверку на ура. Хотелось бы проверить вариант и от Рыжего Лиса. Но почему-то не получается передать из файла исходные данные туда.=(
1
7 / 7 / 0
Регистрация: 26.01.2019
Сообщений: 35
02.02.2019, 19:50 9
Еще один вариант решения:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import sys
 
letS = (str(sys.stdin.read()).split())
myLets = {}
for let in letS:
    myLets[let] = myLets.get(let, 0) + 1
myLets = [(fr, lt) for lt, fr in myLets.items()] #menyaem mestami 
 
 
def makeSort(lws):
    return (-lws[0], lws[1])
 
 
myLets.sort(key=makeSort)
for i in range(len(myLets)):
    print(myLets[i][1])
4
1 / 1 / 0
Регистрация: 08.11.2018
Сообщений: 3
24.02.2019, 22:46 10
Pavelpds спасибо за твое решение, тестирующая система пропустила именно этот вариант решения
0
0 / 0 / 0
Регистрация: 19.05.2019
Сообщений: 1
19.05.2019, 19:54 11
Павел, а можно краткое пояснение, как работает эта часть кода?
Уж очень здорово получается.

Python
1
2
def makeSort(lws):
    return (-lws[0], lws[1])
0
0 / 0 / 0
Регистрация: 13.11.2020
Сообщений: 26
28.02.2021, 19:52 12
а как код будет выглядеть в таком случае Дан текст на языке племени Мумба-Юмба (файл 87.txt). Выведите все слова, встречающиеся в тексте, разделяя их пробелом. Слова должны быть отсортированы по убыванию их количества появления в тексте, а при одинаковой частоте появления — в алфавитном порядке
0
28.02.2021, 19:52
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
28.02.2021, 19:52

Маленький частотный анализ 1
Частотный анализ — это подсчёт, какие символы чаще встречаются в тексте. Это важнейший инструмент...

Маленький частотный анализ
Найти наиболее часто встречающийся символ строки. Формат ввода Вводится одна строка. Формат...

Частотный анализ текста
Частотный анализ — это подсчёт, какие символы чаще встречаются в тексте. Выполним простой частотный...

Частотный анализ переданной строки
Написать программу, реализующую частотный анализ переданной строки: а) общее количество слов в...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
12
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2022, CyberForum.ru