Форум программистов, компьютерный форум, киберфорум
Софт (программы)
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 4.88/16: Рейтинг темы: голосов - 16, средняя оценка - 4.88
Заблокирован

Ассоциативно-семантический поиск на харде с сугестией.

30.07.2011, 14:12. Показов 3509. Ответов 22
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Ищу программу для поиска текстовой информации у себя на жёстком диске.
Таких программ до фига, скажете Вы.
Например Архивариус 3000, Search inform, ищейка, Google Desctop Search и т.п.
Да. Программ много. Но в них нет нужных мне фишек.
О каких "фишках" идёт речь?
Сейчас попробую рассказать. Прогу, которая должна иметь описанные ниже фишки
я условно буду называть ХХ.

1) Хочу чтобы была поддержка суггестии. Ну типа как в яндексе: пока ты набираешь
текст в строке поиска яндекс параллельно ищет и предлагает тебе варианты
поиска.

К примеру я набрал "мама мыла р" а ХХ мне показывает в выпадающем списке:
"мама мыла раму" (123 890)
"мама мыла руки" (23 433)
"мама мыла ребёнка" (12 444)
Где цифры показывают кол-во найденного в базе данных ХХ

2) Семантический поиск. Хочу чтобы можно было задать поиск близких по смыслу слов.
Например я ввёл "папа <#ушёл> домой".
То что слово "ушёл" написано в угловых скобках с префиксом # говорит о том,
что в этой фразе вместо слово "ушёл" могут быть также и другие, близкие по
смыслу, слова. Например, "уехал", "вернулся", "направился" и т.п.

3) Хочу чтобы можно было вместо конкретного слова написать <@глагол>,
<@существительное> и т.д..
Например, если я введу "папа <@глагол> домой", то ХХ должна мне найти
все документы, которые содержат фразы где после "папа" следует
ЛЮБОЙ глагол, а потом слово "домой"

4) Поиск ассоциативно-связанной инфы.
Т.е. я ввожу некий запрос. ХХ анализируя свою базу данных находит
слова, словосочетания или фразы, которые чаще всего присутствуют в документе
вместе с указанным Вами запросом.
К примеру.
Вы ввели "Ошибка в Windows".
А ХХ в суггестии Вам показывает:
"Билл Гейтс" [78%][32][1,4]
"синий экран" [33%][39][1,9]
"мелкософт" [22%][22][3,01]
Что означают эти цифры?
Рассмотрим к примеру 1-ю строку.
- "78%" говорит нам, что 78% документов, в которых найдено "Ошибка в
Windows", содержат также и фразу "Билл Гейтс".
- "32" - это среднее расстояние (слов) в документах от фразы "Ошибка в Windows"
до ближайшей к ней фразе "Билл Гейтс".
- "1,4" показывает сколько раз (усреднёно по всем документам) в документе,
содержащем "Ошибка в Windows" и "Билл Гейтс" повторяется Билл Гейтс"

5) Чтобы можно было задавать вес слов, словосочетаний и предложений.
К примеру если я хочу, чтобы документы и фразы, в которых встречается слово
"форум", имели меньший вес в списке результатов поиска и вариантов суггестии,
то я задаю ему нулевой вес. Напротив. Если я хочу, чтобы документы и варианты
суггестии, содержащие, к примеру, слово OLAP имели больший вес, то я задаю
слову OLAP максимальный вес (10).

6) Чтобы можно было задавать то, что я ищу путём указания расстояния от
известной фразы
К примеру запрос "папа /{2,3} [<@глагол>] маму" означает что нужно найти все
глаголы в документах, в которых глагол расположен справа от слова "папа"
на расстоянии от 2-х до 3-х слов и после которого следует слово мама.


Засим пока хватит.
Хотя описание получилось довольно путаным и сумбурным.
Но я надеюсь Вы поняли основные моменты.
Просто и так "много букафф" получилось, а если бы я описывал всё более детально
и более понятно, что вообще текст бы немереный получился и вряд ли бы его кто-то
тогда "асилил" бы.

Поэтому это пока всё. А в дальнейшем я буду просто давать уточнения и
дополнения.

_________________________________
13:58 30 июля 2011 г.
Доктор ТуамОсес inc.®
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
30.07.2011, 14:12
Ответы с готовыми решениями:

Семантический поиск - нужна свежая информация
Мне для курсовой нужно немного инфы о семантическом поиске, но нужна именно свежая инфа... Если кто поможет буду очень благодарен!

Структура ассоциативно-мажоритарного устройства
ассоциативно мажоритарное устройство (нужна структурная схема)

Ошибки на харде
Есть сервер с 3мя винтами (софтовый рэйд5). После отключения электричества во время работы на одном из винтов смарт начал выводить ошибки,...

22
Заблокирован
31.07.2011, 22:31  [ТС]
Никто так и не ответил, млин
А я старался. Писал.
И всё впустую

Добавлено через 21 секунду
Никто так и не ответил, млин
А я старался. Писал.
И всё впустую
0
 Аватар для Андрей Борисови
714 / 402 / 33
Регистрация: 04.10.2009
Сообщений: 1,686
31.07.2011, 22:48
1. Суггестический поиск будет нереально тормозить вашу машину. Вряд ли ваш HDD твёрдотельный суперскоростной носитель. "Пробежка" будет вам дорого стоить по машинному времени. И даже индексация почти ничего не даст.

2. Семантический поиск. Кто будет создавать словарь омонимов? То же слово "уехал" может иметь их тьму (свалил, дёрнул, удрал, нарезал....).

4. Поиск ассоциативно-связанной инфы. Будете ли вы сами связи настраивать? Т.к. ваша "Ошибка в Windows" должна выдать вам море инфы...

Единственное приемлемое решение - выложить ВСЕ свои доки в инет (хостинг купить). Договриться с компанией Google о индексации вашей инфы всеми доступныеми им способами и вести уже поиск через браузер.
0
Заблокирован
01.08.2011, 16:48  [ТС]
Цитата Сообщение от Андрей Борисови Посмотреть сообщение
Суггестический поиск будет нереально тормозить вашу машину. Вряд ли ваш HDD твёрдотельный суперскоростной носитель.
Если дело только в этом - гамно вопрос.
Ради поддержки суггестии я готов выкинуть свой HDD и поставить накопитель на FLASH памяти.
Ибо для тут случай когда "овчинка выделки ... стОит"

Добавлено через 13 минут
Цитата Сообщение от Андрей Борисови Посмотреть сообщение
Единственное приемлемое решение - выложить ВСЕ свои доки в инет (хостинг купить). Договриться с компанией Google о индексации вашей инфы всеми доступныеми им способами и вести уже поиск через браузер.
Ну возможности гугля с лихвой перекрывает архивариус 3000. Так что. Не вижу смысла в Вашем предложении. Но сейчас мне даже возможностей архивариуса 3000 стало не хватать (так что возможностей гугла тем более не хватит). Захотелось что-нибудь покруче, по забористей.

Добавлено через 15 минут
Цитата Сообщение от Андрей Борисови Посмотреть сообщение
Семантический поиск. Кто будет создавать словарь омонимов?
Дык их в инете "хоть попой кушай". Уже готовеньких. Хоть синонимом, хоть омонимов, хоть антонимов.

Добавлено через 24 минуты
Цитата Сообщение от Андрей Борисови Посмотреть сообщение
4. Поиск ассоциативно-связанной инфы. Будете ли вы сами связи настраивать? Т.к. ваша "Ошибка в Windows" должна выдать вам море инфы...
ХХ должна только "сливки снимать", т.е. показывать топ связей.

Чтобы Вам понятней было что я хочу и что я понимаю под "ассоциативно связанной инфой" расскажу как я сейчас "вручную" (с помощью архивариуса 3000) это делаю .

К примеру, меня интересует насколько ассоциативно связаны в моей базе данных (точнее в базе данных архивариуса 3000) слова гайморит и насморк.
Сначала я ищу <гайморит*>. Получаю, что <гайморит*> содержится в 1073-х файлах.
Затем я ищу <насморк*>. Получаю, что <насморк*> содержится в 1845-ти файлах.
После этого я ищу <насморк* AND гайморит*>. Архивариус находит 374 файла.

После того я вычисляю степень ассоциативной связности.
100-374/1073*100=65,14%
100-374/1845*100=79.73%

О чём говорят эти цифры?
О том, что 65% документов, содержащих слово гайморит, не содержали слова насморк
И о том, что 80% документов, содержащих слово насморк, не содержали слова гайморит.

О чём МНЕ говорят эти цифры?

О том, что ассоциативная связь между "насморком" и "гайморитом" в моей базе данных весьма слабая. Ибо при сильная связь - это, ИМХО, когда менее 10% документов содержат слово и не содержат слова, ассоциативно связанное.

Так вот. Хотелось бы иметь у себя прогу, которая сама, автоматически, находила бы мне все слова, словосочетания или предложения (впо выбору), которые очень СИЛЬНО (или напротив очень слабо) ассоциативно связаны с введённым мной поисковым запросом.

Выше я описал самый простой алгоритм вычисления степени ассоциативной связности просто как иллюстрацию того, чего же мне хотелось. Реально алгоритм может быть гораздо более сложный и интеллектуальный с кучей настроек.

Добавлено через 19 секунд
Цитата Сообщение от Андрей Борисови Посмотреть сообщение
4. Поиск ассоциативно-связанной инфы. Будете ли вы сами связи настраивать? Т.к. ваша "Ошибка в Windows" должна выдать вам море инфы...
ХХ должна только "сливки снимать", т.е. показывать топ связей.

Чтобы Вам понятней было что я хочу и что я понимаю под "ассоциативно связанной инфой" расскажу как я сейчас "вручную" (с помощью архивариуса 3000) это делаю .

К примеру, меня интересует насколько ассоциативно связаны в моей базе данных (точнее в базе данных архивариуса 3000) слова гайморит и насморк.
Сначала я ищу <гайморит*>. Получаю, что <гайморит*> содержится в 1073-х файлах.
Затем я ищу <насморк*>. Получаю, что <насморк*> содержится в 1845-ти файлах.
После этого я ищу <насморк* AND гайморит*>. Архивариус находит 374 файла.

После того я вычисляю степень ассоциативной связности.
100-374/1073*100=65,14%
100-374/1845*100=79.73%

О чём говорят эти цифры?
О том, что 65% документов, содержащих слово гайморит, не содержали слова насморк
И о том, что 80% документов, содержащих слово насморк, не содержали слова гайморит.

О чём МНЕ говорят эти цифры?

О том, что ассоциативная связь между "насморком" и "гайморитом" в моей базе данных весьма слабая. Ибо при сильная связь - это, ИМХО, когда менее 10% документов содержат слово и не содержат слова, ассоциативно связанное.

Так вот. Хотелось бы иметь у себя прогу, которая сама, автоматически, находила бы мне все слова, словосочетания или предложения (впо выбору), которые очень СИЛЬНО (или напротив очень слабо) ассоциативно связаны с введённым мной поисковым запросом.

Выше я описал самый простой алгоритм вычисления степени ассоциативной связности просто как иллюстрацию того, чего же мне хотелось. Реально алгоритм может быть гораздо более сложный и интеллектуальный с кучей настроек.
0
 Аватар для Андрей Борисови
714 / 402 / 33
Регистрация: 04.10.2009
Сообщений: 1,686
02.08.2011, 10:59
Тогда у вас только один выход - написать "под себя"
0
Заблокирован
02.08.2011, 11:08  [ТС]
Цитата Сообщение от Андрей Борисови Посмотреть сообщение
Тогда у вас только один выход - написать "под себя"
Не хотелось бы "изобретать велосипед".
0
 Аватар для EvilVoodoo
259 / 94 / 24
Регистрация: 18.04.2011
Сообщений: 719
Записей в блоге: 1
02.08.2011, 12:24
Здесь нет "изобретения велосипеда".
Такого в природе нет. Если вы хотите иметь такую программу и не заморачиваться с ее написанием, то вам стоит ответить на вопрос "сколько денег вы готовы за нее заплатить?". Фриварно таких вещей вам ни один прогер не наваяет.
0
Заблокирован
02.08.2011, 13:53  [ТС]
Цитата Сообщение от EvilVoodoo Посмотреть сообщение
Такого в природе нет.
Почему Вы в этом так уверенны?


Цитата Сообщение от EvilVoodoo Посмотреть сообщение
Если вы хотите иметь такую программу и не заморачиваться с ее написанием, то вам стоит ответить на вопрос "сколько денег вы готовы за нее заплатить?".
Я не рокфеллер. Я работал уборщиком в туалете за 15 тыр. Сейчас работаю подсобным рабочим за такую же з.п. С такой зарплатой не шибко то понанимаешь прогеров.


Цитата Сообщение от EvilVoodoo Посмотреть сообщение
Фриварно таких вещей вам ни один прогер не наваяет.
А, собссно говоря почему?
Я ж не линукс с нуля попрошу написать. А всего лишь простенькую утилитку.
0
 Аватар для EvilVoodoo
259 / 94 / 24
Регистрация: 18.04.2011
Сообщений: 719
Записей в блоге: 1
02.08.2011, 14:21
Составляй подробное техзадание и кидай в личку - позанимаюсь на досуге ради удовольствия

Не по теме:

Заниматься буду в свободное время + еще одну утилитку программирую, поэтому на скорый результат расчитывать не стоит.

0
Администратор
 Аватар для mik-a-el
87856 / 53177 / 249
Регистрация: 10.04.2006
Сообщений: 13,764
06.10.2011, 15:10
Установите себе яндекс.поиск на комп и не мучайтесь.
1
Заблокирован
06.10.2011, 15:20  [ТС]
Цитата Сообщение от mik-a-el Посмотреть сообщение
Установите себе яндекс.поиск на комп и не мучайтесь.
Падон?
0
 Аватар для Илья Федин
887 / 353 / 1
Регистрация: 12.08.2012
Сообщений: 4,401
Записей в блоге: 5
18.05.2013, 17:58
Доктор ТуамОсес, Эти все фишки из Яндекса? Если да, то я хотел предожить тот же вариант что и mik-a-el (сам пользуюсь)
0
Заблокирован
18.05.2013, 18:01  [ТС]
Цитата Сообщение от Илья Федин Посмотреть сообщение
Эти все фишки из Яндекса?
Ты знаешь в Яндексе такие фишки?
Да в яндексе нет и 10-й части того что я описал и сотой части того, что я не описал по причине "много букафф - никто не асилит всё равно"
0
 Аватар для Илья Федин
887 / 353 / 1
Регистрация: 12.08.2012
Сообщений: 4,401
Записей в блоге: 5
18.05.2013, 18:05
Доктор ТуамОсес, Можете попробовать: http://download.yandex.ru/desk... pSetup.exe
Ну а раз нет, то тогда я вам ничего не могу предложить, хотя идея хороша
0
Заблокирован
18.05.2013, 18:17  [ТС]
Цитата Сообщение от Илья Федин Посмотреть сообщение
Можете попробовать: http://download.yandex.ru/desk... pSetup.exe
По возможностям на порядок хуже архивариуса 3000 - лучший программы в своём роде.

А его я юзаю уже много лет и он меня не совсем устраивает. Поэтому я и создал эту тему

Добавлено через 2 минуты
Я ищу программу описанную в корневом посте данной темы) которая помогает добывать ЗНАНИЯ. а яндекс помогает добывать ИНФОРМАЦИЮ.
Уловили разницу?
0
 Аватар для Илья Федин
887 / 353 / 1
Регистрация: 12.08.2012
Сообщений: 4,401
Записей в блоге: 5
18.05.2013, 18:22
Доктор ТуамОсес, Я просто ответил на этот вопрос:
Цитата Сообщение от Доктор ТуамОсес Посмотреть сообщение
Падон?
0
775 / 444 / 93
Регистрация: 24.10.2012
Сообщений: 3,240
Записей в блоге: 5
18.05.2013, 19:25
Доктор Туам, я вам такой поиск напишу в виде локального веб сайта, на языке php, дня за четыре, только что мне за это будет? Четвертый пункт с вашего первого поста будет трудно реализовать, и он, имхо, будет наиболее ресурсоемкий ПК

Туам, изучите хотя бы один ЯП и пишите что душе угодно
Цитата Сообщение от Доктор ТуамОсес
Цитата Сообщение от EvilVoodoo
Такого в природе нет.
Почему Вы в этом так уверенны?
Потому что. В природе есть все, только вы такое не сможете найти. Вероятность очень маленькая. Чем необычней идея тем меньше ее реализаций в сети
0
11.10.2013, 21:14

Не по теме:

Форумчане, Вы о чём? :D Ничего не понял :)

0
775 / 444 / 93
Регистрация: 24.10.2012
Сообщений: 3,240
Записей в блоге: 5
11.10.2013, 21:20
Цитата Сообщение от Slim86r
Форумчане, Вы о чём? Ничего не понял
Идея ТС это
Цитата Сообщение от Доктор ТуамОсес
Ищу программу для поиска текстовой информации у себя на жёстком диске.
1
Заблокирован
12.10.2013, 11:38  [ТС]
Цитата Сообщение от Slim86r Посмотреть сообщение

Не по теме:

Форумчане, Вы о чём? :D Ничего не понял :)

Не по теме:

Понимаю. Много букафф. Ни асилили? А зря. Там много чего интересного описано

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
12.10.2013, 11:38
Помогаю со студенческими работами здесь

Дефекты на харде
На ноуте хард на 320гиг, при установке винда легла отлично, а в системе все сильно висло дрова на видюху устанавливал около часа... потом...

Разные ФС на 1 харде
на харде ext4 под ubuntu и ntfs под винду впринципе конфликтовать не должно же? Просто винда пол харда не увидит и всё.

XP и Seven на одном харде
На ноуте стоит Семёрка Домашняя Базовая. Но для работы она мне не подходит и решил поставить старую добрую Хрюшу. Но Семёрку, всё таки,...

Аномалия на харде
Народ! Подскажите, что происходит? Проблема такая - не могу удалять/перемещать файлы на диске Д. Просто тупо нет доступа. Дело точно не...

Bad блоки на харде
Всем привет проблемка с винтом иногда выдает сообщение цитирую &quot;Не удалось сохранить все данные часть данных потеряна&quot; вот скрин снял....


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru