|
0 / 0 / 0
Регистрация: 28.05.2005
Сообщений: 347
|
|
Наиболее часто встречающиеся леммы22.09.2010, 14:06. Показов 17322. Ответов 9
Метки нет (Все метки)
Вот такая задачка. В доке есть РТФ поле в которое напихано всякой инфы.
Задача - распарсить это поле и выудить из него около 10 наиболее часто встречающихся слов. Подойдет и собаковое и скриптовое решение.
0
|
|
| 22.09.2010, 14:06 | |
|
Ответы с готовыми решениями:
9
Наиболее часто встречающиеся слова
В массиве найти наиболее часто встречающиеся числа |
|
0 / 0 / 1
Регистрация: 30.06.2007
Сообщений: 2,153
|
|
| 22.09.2010, 14:32 | |
|
Первое пришедшее в голову:
1. Взять Item.Text 2. Посплитить по пробелу 3. Пройтись по получившемуся аррею, загнать слова в List as Integer, исползуя слово как tag и увеличивая значение на единичку каждый раз при повторной встрече слова. 4. Обработать list Ограничения: не больше 32 тыщ слов в тексте Можно не юзать Split, а подумать что-нибудь со стримом, тогда пропадёт ограничение.
0
|
|
|
0 / 0 / 0
Регистрация: 23.08.2008
Сообщений: 6,252
|
|
| 22.09.2010, 14:33 | |
|
на хабре алгоритм пробегал
про mapreduce цикл статей, в разделе алгоритмы
0
|
|
|
0 / 0 / 0
Регистрация: 19.04.2009
Сообщений: 2,219
|
|
| 22.09.2010, 14:36 | |
|
Кмк, лучше на яве. Возможно, даже готовые решения найдутся. На собаках памяти может не хватить, у ЛС массив может кончиться (хотя можно и списки использовать). А так навскидку, бежим по тексту, добавляем слова в словарь, подсчитываем вхождения, берём 10 наиболее частых. Кстати, а что подразумевается под словом? Форум и форумы — это одно слово или разные?.
0
|
|
|
0 / 0 / 0
Регистрация: 28.05.2005
Сообщений: 347
|
|
| 22.09.2010, 14:58 | |
|
На яве я точно не осилю.
Подразумеваются слова простые. Без формул и пр. Назначение сей задачи - <meta name="keywords" content="слово1, слово2, слово3...
0
|
|
|
0 / 0 / 0
Регистрация: 28.05.2005
Сообщений: 347
|
||||||
| 25.09.2010, 15:46 | ||||||
|
В общем собаковое решение тоже покатило
Вот, накрапал. Памяти действительно не хватает на большом объеме текста.
Users are also widely characterized as the class of people that use a system without complete technical expertise required to fully understand the system. In most hacker-related contexts, they are also divided into lusers and power users. Both are terms of degradation, but the latter connotes a "know-it-all" attitude. See also End-user and Nomadic User. [edit] Semantics A user account allows one to authenticate to system services. It also generally provydes one with the opportunity to be authorized to access them. However, authentication does not automatically imply authorization. Once the user has logged on, the operating system will often use an identifier such as an integer to refer to them, rather than their username. On Unix systems thys is called the user identifier or user id. Computer systems are divided into two groups based on what kind of users they have: single-user systems do not have a concept of several user accounts multi-user systems have such a concept, and require users to identify themselves before using the system. | всего 112 <meta name="keywords" content="system, users, systems, computer, account, username, satisfaction, required, identifier, divided, concept, authenticate"> | 12 из 92 для minkey := 2 и слов не менее 5 знаков
0
|
||||||
|
0 / 0 / 0
Регистрация: 04.11.2007
Сообщений: 3,019
|
|
| 26.09.2010, 12:49 | |
|
NetWood
цикл сильно смущает, я бы от него отказался, да и зачем цикл пробигается по всем когда тебе нужно только 10 первых слов?
0
|
|
|
0 / 0 / 0
Регистрация: 28.05.2005
Сообщений: 347
|
|
| 26.09.2010, 16:33 | |
|
По циклу - возможно. Но как по другому? Имеется ввиду массив из всех слов в поле, а не из первых 10. Сначала отрезаем все лишнее, потом проверяем частоту слова (key) в массиве.
Проверял на длинных текстах - памяти не хватает, но и не страшно. В тех доках, что у меня, больших опусов не встречается.
0
|
|
|
0 / 0 / 0
Регистрация: 19.04.2009
Сообщений: 2,219
|
|
| 26.09.2010, 16:46 | |
|
Словоформы не различает (system и systems воспринимает как разные слова) — это нормально?
0
|
|
|
0 / 0 / 0
Регистрация: 28.05.2005
Сообщений: 347
|
|
| 26.09.2010, 17:09 | |
|
По словоформам - это отдельная песня. Конечно не различает. Там же 15 строкособак. Если допилите - будет здорово, но для поисковика это не сильно будет важно. Главное - в keywords есть слова которые ДЕЙСТВИТЕЛЬНО встречаются в тексте минимум трижды. Тогда роботы это любят...
0
|
|
| 26.09.2010, 17:09 | |
|
Помогаю со студенческими работами здесь
10
В тексте найти символы, встречающиеся наиболее часто Указать наиболее часто встречающиеся цифры числа Массивы. Обменять наиболее часто встречающиеся символы в массивах
Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Доступность команды формы по условию
Maks 07.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2.
Задача: сделать доступной кнопку (команда формы "ЗавершитьСписание") при. . .
|
Уведомление о неверно выбранном значении справочника
Maks 06.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "НарядПутевка", разработанного в конфигурации КА2.
Задача: уведомлять пользователя, если в документе выбран неверный склад. . .
|
Установка Qt Creator для C и C++: ставим среду, CMake и MinGW без фреймворка Qt
8Observer8 05.04.2026
Среду разработки Qt Creator можно установить без фреймворка Qt. Есть отдельный репозиторий для этой среды: https:/ / github. com/ qt-creator/ qt-creator, где можно скачать установщик, на вкладке Releases:. . .
|
AkelPad-скрипты, структуры, и немного лирики..
testuser2 05.04.2026
Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .
|
|
Отображение реквизитов в документе по условию и контроль их заполнения
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеСпецтехники", разработанного в конфигурации КА2.
Данный документ берёт данные из другого нетипового документа. . .
|
Фото всей Земли с борта корабля Orion миссии Artemis II
kumehtar 04.04.2026
Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .
|
Вывод диалогового окна перед закрытием, если документ не проведён
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2.
Задача: реализовать программный контроль на предмет проведения документа. . .
|
Программный контроль заполнения реквизитов табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2.
Задача:
1. Реализовать контроль заполнения реквизита. . .
|