Форум программистов, компьютерный форум, киберфорум
Наши страницы
Информатика
Войти
Регистрация
Восстановить пароль
 
Рейтинг 4.75/8: Рейтинг темы: голосов - 8, средняя оценка - 4.75
Петровичи
0 / 0 / 0
Регистрация: 18.05.2012
Сообщений: 2
1

Кластеризация текстов

21.05.2012, 17:47. Просмотров 1494. Ответов 1
Метки нет (Все метки)

Здравствуйте!
Надо писать курсовую на тему:"Метод кластеризации текстов, основанный на попарной близости термов". В курсовую должно входить приложение. Собственно это все что я знаю о своей курсовой. Если кто то сталкивался с кластеризацией посоветуйте с чего начать, литературу какую почитать. Что приложение хоть примерно должно делать.
Спасибо!
P.S. Извиняюсь если не в том разделе разместил тему, не знаю к какому предмету отнести эту тему.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
21.05.2012, 17:47
Ответы с готовыми решениями:

Найти минимальную среднюю длину кодового слова для передачи текстов в двоичном коде
Надеюсь, я в том разделе создал. Будет круто, конечно, если решите, но вообще...

Автоматическая кластеризация текстов
Сижу тут, думаю об алгоритме автоматической кластеризации текстов... но без...

Кластеризация 8.2
Здравствуйте! Мы только кто перешли на 8.2. У нас 2 сервера, допустим, server0...

Кластеризация
Ребят,кто-нибудь может объяснить как найти расстояния смешанных данных? Я...

Кластеризация
Здравствуйте, уважаемые! Извините, что я к вам обращаюсь, но я попал в сложную...

1
CJS
49 / 49 / 8
Регистрация: 17.07.2011
Сообщений: 380
26.05.2012, 01:18 2
Цитата Сообщение от Петровичи Посмотреть сообщение
Здравствуйте!
Надо писать курсовую на тему:"Метод кластеризации текстов, основанный на попарной близости термов". В курсовую должно входить приложение. Собственно это все что я знаю о своей курсовой. Если кто то сталкивался с кластеризацией посоветуйте с чего начать, литературу какую почитать. Что приложение хоть примерно должно делать.
Спасибо!
P.S. Извиняюсь если не в том разделе разместил тему, не знаю к какому предмету отнести эту тему.
Мне, например, представляется это что-то типа экспертной системы: вы задаете слово, а прога вам выдает все связанное по этому слову, исходя из того, что имеется в ее базе знаний(базу знаний вы создали заранее). Ну если немножко программированием интересуетесь, то вы меня поймете.
Ниже описан механизм по которому может быть устроена база знаний.

Тезаурусы
Под тезаурусом понимается сложный компонент словарного типа, в котором все значения словаря связаны между собой семантическими отношениями, отражающими основные соотношения понятий в описываемой предметной области знаний. В прошлом термином тезаурус обозначались по преимуществу словари, с максимальной полнотой представлявшие лексику языка с примерами её употребления в текстах.
В состав тезауруса входят лексемы, относящиеся к четырем частям речи: прилагательному, существительному, глаголу и наречию. Описания, соответствующие каждой части речи, имеют различную структуру.
Основными отношениями в тезаурусе являются:
синонимия – связь между словами одной части речи, различных по звучанию и написанию, но имеющих одинаковое или очень близкое лексическое значение, например: кавалерия – конница, смелый – храбрый;
антонимия – связь между словами одной части речи, различных по звучанию, имеющих прямо противоположные значения: правда – ложь, добрый – злой;
гипонимия/гиперонимия. Гипероним – слово с более широким значением, выражающее общее, родовое понятие, название класса (множества) предметов (свойств, признаков). Гипоним – слово с более узким значением, называющее предмет (свойство, признак) как элемент класса (множества). Эти отношения транзитивны и несимметричны. Гипоним наследует все свойства гиперонима. Являются центральными отношениями для описания существительных;
меронимия/партонимия – отношение «ЧАСТЬ-ЦЕЛОЕ». Внутри этого отношения выделяются отношения «быть элементом» и «быть сделанным из». Отношение определено только для существительных;
следствие (это отношение связывает между собой глаголы);
причина (также определено для глаголов).
Пример тезауруса:
Изба – деревянный крестьянский дом
[гипероним]: жилое здание
[мероним]: сельский населенный пункт
[синоним]: дом
Все отношения создают сложную иерархическую сеть понятий, и знание о том, где находится понятие в этой сети, является важной частью знания об этом понятии. Свойства отношений различны при описании различных частей речи.
В разных системах тезаурус может выполнять разные функции:
источник специальных знаний в узкой или широкой предметной области, способ описания и упорядочения терминологии предметной области;
инструмент поиска в информационно-поисковых системах;
инструмент ручного индексирования документов в информационно-поисковых системах (так называемый контролирующий словарь);
инструмент автоматического индексирования текстов.
Начало тезаурусам как понятийным словарям положил Роже (или Роджет, английский физик), систематизировавший лексику английского языка по группам. Каждая группа представлена именем понятия («категории», которых насчитывалось сначала одна тысяча; это обычные слова, расположенные в алфавитном порядке, например AFFIRMATION ... AGENCY...), далее идут его синонимы по частям речи (существительные, глаголы, прилагательные, наречия), антонимы и затем списки родственных слов (их много, и некоторые представляют собой отсылки к именам других категорий, в словарной статье которых список «дальних родственников» может продолжаться, например, от AGENCY... see BUSINESS). Со времени издания тезауруса Роже в 1852г. и до сих пор продолжаются его переиздания в разных видах и для разных пользователей, тезаурус постоянно пополняется новой лексикой и связями, но за всеми вариантами остается имя создателя первой версии. Ценность этого тезауруса в его естественности, в том, что это описание всей лексики языка, а не только терминологии, а также в том, что его можно привлекать к использованию в системах информационного поиска как средство увеличения семантической силы системы.
Тезаурусы остаются до настоящего времени наиболее принятой формой описания знаний предметной области, пригодной для восприятия человеком. Примерами современных иностранных тезаурусов являются WordNet и EuroWordNet.
Тезаурус английского языка WordNet появился в 1990г. и начал активно привлекаться в различные сферы автоматической обработки текстов. WordNet охватывает около 100 тыс. различных единиц (из них почти половина – словосочетания), организованных в 70 000 понятий.
В настоящее время начинает разрабатываться многоязычный тезаурус EuroWordNet. Первоначально для четырех языков (датского, итальянского, испанского и американского английского) разрабатывается сеть значений слов, связанная семантическими отношениями и позволяющая находить близкие по смыслу слова различных языков. В отличие от тезауруса Роже и сети WordNet, которые создавались для описания лексической и понятийной системы английского языка, EuroWordNet создается в первую очередь для решения практических задач автоматической обработки больших массивов текстов. Важнейшими задачами, которые предполагается решать с помощью этого тезауруса, являются следующие:
обеспечение многоязычного информационного поиска;
увеличение полноты информационного поиска;
формулирование запроса на естественном языке;
семантическое индексирование документов и др.
Кроме этих отношений вводятся также тематические отношения, которые связывают понятия одной предметной области. Предполагается также ввести специальные пометки на отношения между понятиями, обозначающие дизъюнкцию или конъюнкцию отношений. Если некоторое понятие в сети имеет несколько одноименных отношений, то они могут быть дизъюнктивными, т. е. реально реализуется одно из этих отношений, или конъюнктивными, т. е. для понятия действительны все эти отношения.
В отечественных институтах создано более сотни отраслевых тезаурусов, удовлетворяющих определенному государственному стандарту на словари подобного типа. Они так и именуются – ИПТ – информационно-поисковые тезаурусы. Из всех возможных смысловых отношений между понятиями в них зафиксированы три: синонимические, родовидовые (к которым относят обычно и отношение «ЧАСТЬ-ЦЕЛОЕ») и «все прочие», называемые также ассоциативными.
Стандартные ИПТ предназначены в основном для ручного индексирования документов, а также для формулировки и варьирования запросов при поиске. Есть нестандартные тезаурусы, которые ставят задачу скорее выборочной систематизации терминологии в конкретной области знаний – это особенно актуально для новых предметных областей. Растет тенденция к обогащению тезаурусов определениями терминов, что важно для различения неоднозначности терминов, особенно в случае смежных дисциплин и при выходе из границ узких предметных областей.
0
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
26.05.2012, 01:18

k-mean кластеризация
Доброго времени суток уважаемые програмисты! Вы знаете что сделать чтоб...

Кластеризация данных
Собственно не как не могу понять какой алгоритм подойдёт для такой задачи....

Спектральная кластеризация
Кто знает где описан алгоритм спектральной кластеризации с примером. Желательно...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2018, vBulletin Solutions, Inc.
Рейтинг@Mail.ru