Форум программистов, компьютерный форум, киберфорум
Python: Решение задач
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.88/8: Рейтинг темы: голосов - 8, средняя оценка - 4.88
0 / 0 / 0
Регистрация: 30.11.2021
Сообщений: 40

Найти сколько каждое слово в тексте повторяется

04.12.2021, 23:28. Показов 1765. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Надо найти сколько каждое слово в тексте сайта повторяется. Посмотрел многие посты, связанные с похожими темами, ничего не нашёл нужного, только установил суп и регуест. Буду благодарен любой помощи.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
04.12.2021, 23:28
Ответы с готовыми решениями:

Сколько раз встречается в тексте каждое слово
Здравствуйте. Проблема с сортировкой. Решаю задачу: Дан текст на русском языке. Посчитайте, сколько раз встречается в тексте каждое...

Посчитать сколько раз каждое слово встречается в тексте
Дана строка текста. Посчитать сколько раз каждое слово встречается в тексте. Вывести слова, которые встречаются только 4 раза в том...

Определите, сколько раз встречается в некотором тексте каждое слово
Помогите срочно написать програму на районне Определите, сколько раз встречается в некотором тексте каждое слово не используя регулярные...

4
Модератор
 Аватар для vxg
3409 / 2180 / 354
Регистрация: 13.01.2012
Сообщений: 8,460
05.12.2021, 10:11
noviy_pasitonst, возможно так, но смотря что понимать под словом "слово"
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
import requests
import re
 
words = [
    "форум",
    "python",
    "каждое"
]
counters = {word: 0 for word in words}
 
url = "https://www.cyberforum.ru/python-beginners/thread2914572.html"
 
r = requests.get(url, timeout=5, headers={"User-Agent": "requests"})
 
content = r.content.decode("utf-8")
with open("content.txt", "w") as f:
    f.write(content)
 
elems = re.findall("[a-zA-Zа-яёА-ЯЁ]+", content)
with open("elems.txt", "w") as f:
    for elem in elems:
        f.write(elem)
        f.write("\n")
 
for elem in elems:
    word = elem.lower()
    if word in counters:
        counters[word] += 1
 
for word, count in counters.items():
    print("{0}: {1}".format(word, count))
2
0 / 0 / 0
Регистрация: 30.11.2021
Сообщений: 40
05.12.2021, 16:44  [ТС]
Огромное спасибо за помощь, слово - всё, кроме знаков. А как можно сделать, чтобы это работало не для форум, пайтон, каждое и так далее, что мы зададим, а автоматически для всех слов на сайте?

Добавлено через 7 минут
Но подсчёт идёт больше, чем повторяется на сайте?

Добавлено через 16 минут
Может это поможет.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
import requests
from bs4 import BeautifulSoup
 
 
def get_text(url):
    rs = requests.get(url)
    root = BeautifulSoup(rs.content, 'html.parser')
    article = root.select_one('article')
 
    return article.text
 
 
url = input()
text = get_text(url)
print(text)
Мне не надо слишком сложно, просто есть статья на сайте и посчитать для всех слов сколько каждое повторяется в тексте статьи. На боковые элементы, можно не обращать внимания.

Добавлено через 14 минут
Вроде бы работает:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
import requests
from bs4 import BeautifulSoup
import re
from collections import Counter
def get_text(url):
    rs = requests.get(url)
    root = BeautifulSoup(rs.content, 'html.parser')
    article = root.select_one('article')
 
    return article.text
 
 
url = input()
text = get_text(url)
t = text
words = re.findall(r'\w+', t)
words = [i.title() for i in words]
ls = Counter(words).most_common()
ls.sort(key=lambda x: (-x[1], x[0]))
for word, i in ls:
    print(word, i)
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
05.12.2021, 17:01
Цитата Сообщение от noviy_pasitonst Посмотреть сообщение
просто есть статья на сайте
Просто нужно указывать конкретный сайт. И конкретный блок, который нужно распарсить. И Это на будущее. Здесь не гадают.

Цитата Сообщение от noviy_pasitonst Посмотреть сообщение
слово - всё, кроме знаков.
И еще нужно научиться формулировать правильно задачу.
Слово может быть словарной лексемой, словоформой, множеством определенных символов и т.д.
1
0 / 0 / 0
Регистрация: 30.11.2021
Сообщений: 40
05.12.2021, 17:13  [ТС]
В том то и дело, что надо не для отдельного сайта. Как я понял, большинство по умолчанию считает словом набор символов разделённых пробелом.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
05.12.2021, 17:13
Помогаю со студенческими работами здесь

Посчитайте, сколько раз встречается в тексте каждое слово
Дан текст на русском языке. Посчитайте, сколько раз встречается в тексте каждое слово. Слово — это последовательность русских букв....

Посчитайте, сколько раз встречается в тексте каждое слово
Дан текст на русском языке. Посчитайте, сколько раз встречается в тексте каждое слово. Слово — это последовательность русских букв....

Вывести на экран построчно каждое слово и сколько раз оно встречается в тексте.
Дан текст, состоящий из количества строк текста и самого текста. Вывести на экран построчно каждое слово и сколько раз оно встречается в...

Найти и напечатать, сколько раз повторяется в тексте каждое слово
помогите переделать код, чтобы прога работала package gg_wp; import java.util.*; import javax.swing.*; public class...

Найти и напечатать, сколько раз повторяется в тексте каждое слово
Найти и напечатать, сколько раз повторяется в тексте каждое слово помогите пожалки, я не знаю как сделать :umnik:, мне нужно скорее...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11680&d=1772460536 Одним из. . .
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten
8Observer8 27.02.2026
Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru