Форум программистов, компьютерный форум, киберфорум
Наши страницы

Lotus Notes/Domino: Программирование

Войти
Регистрация
Восстановить пароль
 
mytWood
0 / 0 / 0
Регистрация: 28.05.2005
Сообщений: 347
#1

Наиболее часто встречающиеся леммы - Lotus

22.09.2010, 14:06. Просмотров 16632. Ответов 9
Метки нет (Все метки)

Вот такая задачка. В доке есть РТФ поле в которое напихано всякой инфы.

Задача - распарсить это поле и выудить из него около 10 наиболее часто встречающихся слов.
Подойдет и собаковое и скриптовое решение.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
22.09.2010, 14:06
Я подобрал для вас темы с готовыми решениями и ответами на вопрос Наиболее часто встречающиеся леммы (Lotus):

Наиболее часто встречающиеся слова - C++
Здравствуйте! Помогите, пожалуйста написать код, который из текстового файла со словами найдет 10 наиболее часто встречающихся слов и...

наиболее часто встречающиеся байти - Visual C++
нужна программа которая открывает файл и находит в нем 5 наиболее часто встречающихся байт т.е для каждого байта с кодом от нуля до 255...

Указать наиболее часто встречающиеся цифры числа N - Turbo Pascal
Дано натуральное число N. Указать наиболее часто встречающиеся цифры числа N. В задаче используется целочисленная переменная N,...

В тексте найти символы, встречающиеся наиболее часто - C (СИ)
В тексте найти символы, встречающиеся наиболее часто. Символы вводятся с клавиатуры.

Указать наиболее часто встречающиеся цифры числа - Java SE
всем привет. только начинаю изучать java, возникли конкретные трудности с этой задачей, помогите пожалуйста: дано натуральное число N....

В массиве найти наиболее часто встречающиеся числа - C (СИ)
В массиве целых чисел с количеством элементов N(N вводится с клавиатуры) найти наиболее часто встречающиеся числа. если таких чисел...

9
Omh
0 / 0 / 1
Регистрация: 30.06.2007
Сообщений: 2,153
22.09.2010, 14:32 #2
Первое пришедшее в голову:
1. Взять Item.Text
2. Посплитить по пробелу
3. Пройтись по получившемуся аррею, загнать слова в List as Integer, исползуя слово как tag и увеличивая значение на единичку каждый раз при повторной встрече слова.
4. Обработать list

Ограничения: не больше 32 тыщ слов в тексте
Можно не юзать Split, а подумать что-нибудь со стримом, тогда пропадёт ограничение.
0
tmyky
0 / 0 / 0
Регистрация: 23.08.2008
Сообщений: 6,252
22.09.2010, 14:33 #3
на хабре алгоритм пробегал
про mapreduce цикл статей, в разделе алгоритмы
0
mvyush
0 / 0 / 0
Регистрация: 19.04.2009
Сообщений: 2,219
22.09.2010, 14:36 #4
Кмк, лучше на яве. Возможно, даже готовые решения найдутся. На собаках памяти может не хватить, у ЛС массив может кончиться (хотя можно и списки использовать). А так навскидку, бежим по тексту, добавляем слова в словарь, подсчитываем вхождения, берём 10 наиболее частых. Кстати, а что подразумевается под словом? Форум и форумы — это одно слово или разные?.
0
mytWood
0 / 0 / 0
Регистрация: 28.05.2005
Сообщений: 347
22.09.2010, 14:58 #5
На яве я точно не осилю.

Подразумеваются слова простые. Без формул и пр. Назначение сей задачи - <meta name="keywords" content="слово1, слово2, слово3...
0
mytWood
0 / 0 / 0
Регистрация: 28.05.2005
Сообщений: 347
25.09.2010, 15:46 #6
В общем собаковое решение тоже покатило
Вот, накрапал. Памяти действительно не хватает на большом объеме текста.

Код
minkey := 4; rem {минимальное скока раз слово встречается};
minword := 5; rem {минимальная длина слова};
znakip := @NewLine:" ":",":":":"!":"-":"_":"<":">":"\"":"?":"(":")":"":"=":"[":"]":".":"/"; rem {тут основные};
zamena := "#~#":"#~#":"#~#":"#~#":"#~#":"#~#":"#~#":"#~#":"#~#":"#~#":"#~#":"#~#":"#~#":"#~#":"#~#":"#~#":"#~#":"#~#";
temp := @LowerCase(@ReplaceSubstring(@Trim(@Text(Body));znakip;zamena));
list := @Explode(temp;"#~#");
listnum:="1":"2":"3":"4":"5":"6":"7":"8":"9":"0";
narech := "только":"еще":"уже":"очень":"раз":"можно":"после":"сейчас":"тоже":"чтобы"; rem {тут можно добавить еще 1000 значений - Частотный список наречий и предикативов http://dict.ruslang.ru/freq.php?act=show&dic=freq_adv&title=%D7%E0%F1%F2%EE%F2%ED%FB%E9%20%F1%EF%E8%F1%EE%EA%20%ED%E0%F0%E5%F7%E8%E9%20%E8%20%EF%F0%E5%E4%E8%EA%E0%F2%E8%E2%EE%E2};
keywords:=@Transform(list; "xn";@If((@Length(xn)<minword | @Contains(xn;listnum:narech) );@Nothyng;xn)); rem {убить текст меньше 5 и все содерж числа};
keywords := @Sort(keywords); rem {это не обязательно};
ukeywords := @Unique(keywords); rem {посечь повторяющиеся, жаль что нет функции !@Unique};
nu :=1; nk :=0;
@DoWhile(
name:=@Subset(@Subset(ukeywords;nu);-1);
key := @Elements(@Keywords( name; keywords ));
@If( key => minkey; @Do(tag := tag : (@Text(key)+"#~#"+name); nk := nk+1); @Nothyng);
nu := nu + 1;
nu <= @Elements(ukeywords)
);
tag := @Sort(@Explode(@Implode(tag));[DESCENDING]); REM {убить лишнее пустое вначале tag, сортировать с максимума key, 10 считает < 9};

kw :=@Implode(@Right(tag;"#~#");", ");
kw+" | "+@Text(nk)+" из "+@Text(nu)
A user is a person who uses a computer or Internet service. A user may have a user account that identifies the user by a username (also user name), screen name (also screenname), or "handle", which is derived from the identical Citizens Band radio term. To log in to an account, a user is typically required to authenticate himself/herself/ytself with a password or other credentials for the purposes of accounting, security, logging, and resource management. For a discussion of user satisfaction, see Computer user satisfaction.
Users are also widely characterized as the class of people that use a system without complete technical expertise required to fully understand the system. In most hacker-related contexts, they are also divided into lusers and power users. Both are terms of degradation, but the latter connotes a "know-it-all" attitude. See also End-user and Nomadic User.
[edit] Semantics
A user account allows one to authenticate to system services. It also generally provydes one with the opportunity to be authorized to access them. However, authentication does not automatically imply authorization. Once the user has logged on, the operating system will often use an identifier such as an integer to refer to them, rather than their username. On Unix systems thys is called the user identifier or user id.
Computer systems are divided into two groups based on what kind of users they have:
single-user systems do not have a concept of several user accounts
multi-user systems have such a concept, and require users to identify themselves before using the system. | всего 112

<meta name="keywords" content="system, users, systems, computer, account, username, satisfaction, required, identifier, divided, concept, authenticate">
| 12 из 92 для minkey := 2 и слов не менее 5 знаков
0
ToxoRot
0 / 0 / 0
Регистрация: 04.11.2007
Сообщений: 3,019
26.09.2010, 12:49 #7
NetWood
цикл сильно смущает, я бы от него отказался, да и зачем цикл пробигается по всем когда тебе нужно только 10 первых слов?
0
mytWood
0 / 0 / 0
Регистрация: 28.05.2005
Сообщений: 347
26.09.2010, 16:33 #8
По циклу - возможно. Но как по другому? Имеется ввиду массив из всех слов в поле, а не из первых 10. Сначала отрезаем все лишнее, потом проверяем частоту слова (key) в массиве.
Проверял на длинных текстах - памяти не хватает, но и не страшно. В тех доках, что у меня, больших опусов не встречается.
0
mvyush
0 / 0 / 0
Регистрация: 19.04.2009
Сообщений: 2,219
26.09.2010, 16:46 #9
Словоформы не различает (system и systems воспринимает как разные слова) — это нормально?
0
mytWood
0 / 0 / 0
Регистрация: 28.05.2005
Сообщений: 347
26.09.2010, 17:09 #10
По словоформам - это отдельная песня. Конечно не различает. Там же 15 строкособак. Если допилите - будет здорово, но для поисковика это не сильно будет важно. Главное - в keywords есть слова которые ДЕЙСТВИТЕЛЬНО встречаются в тексте минимум трижды. Тогда роботы это любят...
0
26.09.2010, 17:09
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
26.09.2010, 17:09
Привет! Вот еще темы с ответами:

Наиболее часто встречающиеся слова в истории сообщений Slack - Python
Привет всем! Очень нужна помощь. Нужно найти наиболее часто встречающиеся слова в истории сообщений Slack. У моем коде две проблемы: ...

Посчитать все элементы и наиболее часто встречающиеся - удалить - C++
Помогите пожалуйста! Используя класс list (либо map) из стандартной библиотеки шаблонов Stl посчитать из файла in.txt все слова в список...

Массивы. Обменять наиболее часто встречающиеся символы в массивах - Turbo Pascal
Пожалуйста.. напишите не сложную для вас программу..) если можно, то с пояснениями) Даны два символьных массива. Наиболее часто...

Определить наиболее часто встречающиеся в файле слова и вывести первые N слов - C (СИ)
Во общем, нужно определить наиболее часто встречающиеся в файле слова и вывести первые N слов на экран или в файл с указанием количества...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2018, vBulletin Solutions, Inc.
Рейтинг@Mail.ru