Заблокирован

Ассоциативно-семантический поиск на харде с сугестией.

30.07.2011, 14:12. Показов 3545. Ответов 22
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Ищу программу для поиска текстовой информации у себя на жёстком диске.
Таких программ до фига, скажете Вы.
Например Архивариус 3000, Search inform, ищейка, Google Desctop Search и т.п.
Да. Программ много. Но в них нет нужных мне фишек.
О каких "фишках" идёт речь?
Сейчас попробую рассказать. Прогу, которая должна иметь описанные ниже фишки
я условно буду называть ХХ.

1) Хочу чтобы была поддержка суггестии. Ну типа как в яндексе: пока ты набираешь
текст в строке поиска яндекс параллельно ищет и предлагает тебе варианты
поиска.

К примеру я набрал "мама мыла р" а ХХ мне показывает в выпадающем списке:
"мама мыла раму" (123 890)
"мама мыла руки" (23 433)
"мама мыла ребёнка" (12 444)
Где цифры показывают кол-во найденного в базе данных ХХ

2) Семантический поиск. Хочу чтобы можно было задать поиск близких по смыслу слов.
Например я ввёл "папа <#ушёл> домой".
То что слово "ушёл" написано в угловых скобках с префиксом # говорит о том,
что в этой фразе вместо слово "ушёл" могут быть также и другие, близкие по
смыслу, слова. Например, "уехал", "вернулся", "направился" и т.п.

3) Хочу чтобы можно было вместо конкретного слова написать <@глагол>,
<@существительное> и т.д..
Например, если я введу "папа <@глагол> домой", то ХХ должна мне найти
все документы, которые содержат фразы где после "папа" следует
ЛЮБОЙ глагол, а потом слово "домой"

4) Поиск ассоциативно-связанной инфы.
Т.е. я ввожу некий запрос. ХХ анализируя свою базу данных находит
слова, словосочетания или фразы, которые чаще всего присутствуют в документе
вместе с указанным Вами запросом.
К примеру.
Вы ввели "Ошибка в Windows".
А ХХ в суггестии Вам показывает:
"Билл Гейтс" [78%][32][1,4]
"синий экран" [33%][39][1,9]
"мелкософт" [22%][22][3,01]
Что означают эти цифры?
Рассмотрим к примеру 1-ю строку.
- "78%" говорит нам, что 78% документов, в которых найдено "Ошибка в
Windows", содержат также и фразу "Билл Гейтс".
- "32" - это среднее расстояние (слов) в документах от фразы "Ошибка в Windows"
до ближайшей к ней фразе "Билл Гейтс".
- "1,4" показывает сколько раз (усреднёно по всем документам) в документе,
содержащем "Ошибка в Windows" и "Билл Гейтс" повторяется Билл Гейтс"

5) Чтобы можно было задавать вес слов, словосочетаний и предложений.
К примеру если я хочу, чтобы документы и фразы, в которых встречается слово
"форум", имели меньший вес в списке результатов поиска и вариантов суггестии,
то я задаю ему нулевой вес. Напротив. Если я хочу, чтобы документы и варианты
суггестии, содержащие, к примеру, слово OLAP имели больший вес, то я задаю
слову OLAP максимальный вес (10).

6) Чтобы можно было задавать то, что я ищу путём указания расстояния от
известной фразы
К примеру запрос "папа /{2,3} [<@глагол>] маму" означает что нужно найти все
глаголы в документах, в которых глагол расположен справа от слова "папа"
на расстоянии от 2-х до 3-х слов и после которого следует слово мама.


Засим пока хватит.
Хотя описание получилось довольно путаным и сумбурным.
Но я надеюсь Вы поняли основные моменты.
Просто и так "много букафф" получилось, а если бы я описывал всё более детально
и более понятно, что вообще текст бы немереный получился и вряд ли бы его кто-то
тогда "асилил" бы.

Поэтому это пока всё. А в дальнейшем я буду просто давать уточнения и
дополнения.

_________________________________
13:58 30 июля 2011 г.
Доктор ТуамОсес inc.®
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
30.07.2011, 14:12
Ответы с готовыми решениями:

Семантический поиск - нужна свежая информация
Мне для курсовой нужно немного инфы о семантическом поиске, но нужна именно свежая инфа... Если кто поможет буду очень благодарен!

Структура ассоциативно-мажоритарного устройства
ассоциативно мажоритарное устройство (нужна структурная схема)

Ошибки на харде
Есть сервер с 3мя винтами (софтовый рэйд5). После отключения электричества во время работы на одном из винтов смарт начал выводить ошибки,...

22
12.10.2013, 15:38
Студворк — интернет-сервис помощи студентам

Не по теме:

Цитата Сообщение от Доктор ТуамОсес Посмотреть сообщение
Понимаю. Много букафф. Ни асилили? А зря. Там много чего интересного описано
Вообще-то осилил, но не понял, зачем вам это

0
Заблокирован
06.09.2014, 14:42  [ТС]
Slim86r, Для удобного сёрфинга по огромному массиву информации из НЕИЗВЕСТНОЙ ОБЛАСТИ и быстрого её освоения
0
Заблокирован
29.10.2014, 20:30  [ТС]
Ну так чо? Не создано в мире таких программ?
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
29.10.2014, 20:30
Помогаю со студенческими работами здесь

Дефекты на харде
На ноуте хард на 320гиг, при установке винда легла отлично, а в системе все сильно висло дрова на видюху устанавливал около часа... потом...

Разные ФС на 1 харде
на харде ext4 под ubuntu и ntfs под винду впринципе конфликтовать не должно же? Просто винда пол харда не увидит и всё.

XP и Seven на одном харде
На ноуте стоит Семёрка Домашняя Базовая. Но для работы она мне не подходит и решил поставить старую добрую Хрюшу. Но Семёрку, всё таки,...

Аномалия на харде
Народ! Подскажите, что происходит? Проблема такая - не могу удалять/перемещать файлы на диске Д. Просто тупо нет доступа. Дело точно не...

Bad блоки на харде
Всем привет проблемка с винтом иногда выдает сообщение цитирую &quot;Не удалось сохранить все данные часть данных потеряна&quot; вот скрин снял....


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
23
Ответ Создать тему
Опции темы

Новые блоги и статьи
Асинхронный приём данных из COM-порта
Argus19 01.05.2026
Асинхронный приём данных из COM-порта Купил на aliexpress термопринтер QR701. Он оказался странным. Поключил к Arduino Nano. Был очень удивлён. Наотрез отказывается печатать русские буквы. Чтобы. . .
попытка написать игровой сервер на C++
pyirrlicht 29.04.2026
попытка написать игровой сервер на плюсах с открытым бесконечным миром. возможно получится прикрутить интерпретатор питон для кастомизации игровой логики. что есть на текущий момент:. . .
Контроль уникальности выбранного документа-основания при изменении реквизита
Maks 28.04.2026
Алгоритм из решения ниже разработан на примере нетипового документа "ЗаявкаНаРемонтСпецтехники", разработанного в КА2. Задача: уведомлять пользователя, если указанная заявка (документ-основание). . .
Благородство как наказание
Maks 24.04.2026
У хорошего человека отношения с женщинами всегда складываются трудно. А я человек хороший. Заявляю без тени смущения, потому что гордиться тут нечем. От хорошего человека ждут соответствующего. . .
Валидация и контроль данных табличной части документа перед записью
Maks 22.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в КА2. Задача: контроль и валидация данных табличной части документа перед записью с учетом регламента компании. . .
Отчёт о затраченных материалах за определенный период с макетом печатной формы
Maks 21.04.2026
Отчёт из решения ниже размещён в конфигурации КА2. Задача: разработка отчёта по затраченным материалам за определённый период, с возможностью вывода печатной формы отчёта с шапкой и подвалом. В. . .
Отчёт о спецтехнике находящейся в ремонте
Maks 20.04.2026
Отчёт из решения ниже размещен в конфигурации КА2. Задача: отобразить спецтехнику, которая на данный момент находится в ремонте. Есть нетиповой документ "Заявка на ремонт спецтехники" который. . .
Памятка для бота и "визитка" для читателей "Semantic Universe Layer (Слой семантической вселенной)"
Hrethgir 19.04.2026
Сгенерировано для краткого описания по случаю сборки и компиляции скелета серверного приложения. И пусть после этого скажут, что статьи сгенерированные AI - туфта и не интересно. И это не реклама -. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru