|
Заблокирован
|
|
Ассоциативно-семантический поиск на харде с сугестией.30.07.2011, 14:12. Показов 3509. Ответов 22
Метки нет (Все метки)
Ищу программу для поиска текстовой информации у себя на жёстком диске.
Таких программ до фига, скажете Вы. Например Архивариус 3000, Search inform, ищейка, Google Desctop Search и т.п. Да. Программ много. Но в них нет нужных мне фишек. О каких "фишках" идёт речь? Сейчас попробую рассказать. Прогу, которая должна иметь описанные ниже фишки я условно буду называть ХХ. 1) Хочу чтобы была поддержка суггестии. Ну типа как в яндексе: пока ты набираешь текст в строке поиска яндекс параллельно ищет и предлагает тебе варианты поиска. К примеру я набрал "мама мыла р" а ХХ мне показывает в выпадающем списке: "мама мыла раму" (123 890) "мама мыла руки" (23 433) "мама мыла ребёнка" (12 444) Где цифры показывают кол-во найденного в базе данных ХХ 2) Семантический поиск. Хочу чтобы можно было задать поиск близких по смыслу слов. Например я ввёл "папа <#ушёл> домой". То что слово "ушёл" написано в угловых скобках с префиксом # говорит о том, что в этой фразе вместо слово "ушёл" могут быть также и другие, близкие по смыслу, слова. Например, "уехал", "вернулся", "направился" и т.п. 3) Хочу чтобы можно было вместо конкретного слова написать <@глагол>, <@существительное> и т.д.. Например, если я введу "папа <@глагол> домой", то ХХ должна мне найти все документы, которые содержат фразы где после "папа" следует ЛЮБОЙ глагол, а потом слово "домой" 4) Поиск ассоциативно-связанной инфы. Т.е. я ввожу некий запрос. ХХ анализируя свою базу данных находит слова, словосочетания или фразы, которые чаще всего присутствуют в документе вместе с указанным Вами запросом. К примеру. Вы ввели "Ошибка в Windows". А ХХ в суггестии Вам показывает: "Билл Гейтс" [78%][32][1,4] "синий экран" [33%][39][1,9] "мелкософт" [22%][22][3,01] Что означают эти цифры? Рассмотрим к примеру 1-ю строку. - "78%" говорит нам, что 78% документов, в которых найдено "Ошибка в Windows", содержат также и фразу "Билл Гейтс". - "32" - это среднее расстояние (слов) в документах от фразы "Ошибка в Windows" до ближайшей к ней фразе "Билл Гейтс". - "1,4" показывает сколько раз (усреднёно по всем документам) в документе, содержащем "Ошибка в Windows" и "Билл Гейтс" повторяется Билл Гейтс" 5) Чтобы можно было задавать вес слов, словосочетаний и предложений. К примеру если я хочу, чтобы документы и фразы, в которых встречается слово "форум", имели меньший вес в списке результатов поиска и вариантов суггестии, то я задаю ему нулевой вес. Напротив. Если я хочу, чтобы документы и варианты суггестии, содержащие, к примеру, слово OLAP имели больший вес, то я задаю слову OLAP максимальный вес (10). 6) Чтобы можно было задавать то, что я ищу путём указания расстояния от известной фразы К примеру запрос "папа /{2,3} [<@глагол>] маму" означает что нужно найти все глаголы в документах, в которых глагол расположен справа от слова "папа" на расстоянии от 2-х до 3-х слов и после которого следует слово мама. Засим пока хватит. Хотя описание получилось довольно путаным и сумбурным. Но я надеюсь Вы поняли основные моменты. Просто и так "много букафф" получилось, а если бы я описывал всё более детально и более понятно, что вообще текст бы немереный получился и вряд ли бы его кто-то тогда "асилил" бы. Поэтому это пока всё. А в дальнейшем я буду просто давать уточнения и дополнения. _________________________________ 13:58 30 июля 2011 г. Доктор ТуамОсес inc.®
0
|
|
| 30.07.2011, 14:12 | |
|
Ответы с готовыми решениями:
22
Семантический поиск - нужна свежая информация Структура ассоциативно-мажоритарного устройства Ошибки на харде |
|
Заблокирован
|
|
| 31.07.2011, 22:31 [ТС] | |
|
Никто так и не ответил, млин
А я старался. Писал. И всё впустую Добавлено через 21 секунду Никто так и не ответил, млин А я старался. Писал. И всё впустую
0
|
|
|
714 / 402 / 33
Регистрация: 04.10.2009
Сообщений: 1,686
|
|
| 31.07.2011, 22:48 | |
|
1. Суггестический поиск будет нереально тормозить вашу машину. Вряд ли ваш HDD твёрдотельный суперскоростной носитель. "Пробежка" будет вам дорого стоить по машинному времени. И даже индексация почти ничего не даст.
2. Семантический поиск. Кто будет создавать словарь омонимов? То же слово "уехал" может иметь их тьму (свалил, дёрнул, удрал, нарезал....). 4. Поиск ассоциативно-связанной инфы. Будете ли вы сами связи настраивать? Т.к. ваша "Ошибка в Windows" должна выдать вам море инфы... Единственное приемлемое решение - выложить ВСЕ свои доки в инет (хостинг купить). Договриться с компанией Google о индексации вашей инфы всеми доступныеми им способами и вести уже поиск через браузер.
0
|
|
|
Заблокирован
|
||||||
| 01.08.2011, 16:48 [ТС] | ||||||
|
Ради поддержки суггестии я готов выкинуть свой HDD и поставить накопитель на FLASH памяти. Ибо для тут случай когда "овчинка выделки ... стОит" Добавлено через 13 минут Добавлено через 15 минут Добавлено через 24 минуты Чтобы Вам понятней было что я хочу и что я понимаю под "ассоциативно связанной инфой" расскажу как я сейчас "вручную" (с помощью архивариуса 3000) это делаю . К примеру, меня интересует насколько ассоциативно связаны в моей базе данных (точнее в базе данных архивариуса 3000) слова гайморит и насморк. Сначала я ищу <гайморит*>. Получаю, что <гайморит*> содержится в 1073-х файлах. Затем я ищу <насморк*>. Получаю, что <насморк*> содержится в 1845-ти файлах. После этого я ищу <насморк* AND гайморит*>. Архивариус находит 374 файла. После того я вычисляю степень ассоциативной связности. 100-374/1073*100=65,14% 100-374/1845*100=79.73% О чём говорят эти цифры? О том, что 65% документов, содержащих слово гайморит, не содержали слова насморк И о том, что 80% документов, содержащих слово насморк, не содержали слова гайморит. О чём МНЕ говорят эти цифры? О том, что ассоциативная связь между "насморком" и "гайморитом" в моей базе данных весьма слабая. Ибо при сильная связь - это, ИМХО, когда менее 10% документов содержат слово и не содержат слова, ассоциативно связанное. Так вот. Хотелось бы иметь у себя прогу, которая сама, автоматически, находила бы мне все слова, словосочетания или предложения (впо выбору), которые очень СИЛЬНО (или напротив очень слабо) ассоциативно связаны с введённым мной поисковым запросом. Выше я описал самый простой алгоритм вычисления степени ассоциативной связности просто как иллюстрацию того, чего же мне хотелось. Реально алгоритм может быть гораздо более сложный и интеллектуальный с кучей настроек. Добавлено через 19 секунд Чтобы Вам понятней было что я хочу и что я понимаю под "ассоциативно связанной инфой" расскажу как я сейчас "вручную" (с помощью архивариуса 3000) это делаю . К примеру, меня интересует насколько ассоциативно связаны в моей базе данных (точнее в базе данных архивариуса 3000) слова гайморит и насморк. Сначала я ищу <гайморит*>. Получаю, что <гайморит*> содержится в 1073-х файлах. Затем я ищу <насморк*>. Получаю, что <насморк*> содержится в 1845-ти файлах. После этого я ищу <насморк* AND гайморит*>. Архивариус находит 374 файла. После того я вычисляю степень ассоциативной связности. 100-374/1073*100=65,14% 100-374/1845*100=79.73% О чём говорят эти цифры? О том, что 65% документов, содержащих слово гайморит, не содержали слова насморк И о том, что 80% документов, содержащих слово насморк, не содержали слова гайморит. О чём МНЕ говорят эти цифры? О том, что ассоциативная связь между "насморком" и "гайморитом" в моей базе данных весьма слабая. Ибо при сильная связь - это, ИМХО, когда менее 10% документов содержат слово и не содержат слова, ассоциативно связанное. Так вот. Хотелось бы иметь у себя прогу, которая сама, автоматически, находила бы мне все слова, словосочетания или предложения (впо выбору), которые очень СИЛЬНО (или напротив очень слабо) ассоциативно связаны с введённым мной поисковым запросом. Выше я описал самый простой алгоритм вычисления степени ассоциативной связности просто как иллюстрацию того, чего же мне хотелось. Реально алгоритм может быть гораздо более сложный и интеллектуальный с кучей настроек.
0
|
||||||
|
714 / 402 / 33
Регистрация: 04.10.2009
Сообщений: 1,686
|
|
| 02.08.2011, 10:59 | |
|
Тогда у вас только один выход - написать "под себя"
0
|
|
|
Заблокирован
|
|
| 02.08.2011, 11:08 [ТС] | |
|
0
|
|
|
|
|
| 02.08.2011, 12:24 | |
|
Здесь нет "изобретения велосипеда".
Такого в природе нет. Если вы хотите иметь такую программу и не заморачиваться с ее написанием, то вам стоит ответить на вопрос "сколько денег вы готовы за нее заплатить?". Фриварно таких вещей вам ни один прогер не наваяет.
0
|
|
|
Заблокирован
|
||||
| 02.08.2011, 13:53 [ТС] | ||||
![]() ![]() Я ж не линукс с нуля попрошу написать. А всего лишь простенькую утилитку.
0
|
||||
|
|
|
| 02.08.2011, 14:21 | |
|
Составляй подробное техзадание и кидай в личку - позанимаюсь на досуге ради удовольствия
![]() Не по теме: Заниматься буду в свободное время + еще одну утилитку программирую, поэтому на скорый результат расчитывать не стоит.
0
|
|
|
Администратор
87856 / 53177 / 249
Регистрация: 10.04.2006
Сообщений: 13,764
|
|
| 06.10.2011, 15:10 | |
|
Установите себе яндекс.поиск на комп и не мучайтесь.
1
|
|
|
Заблокирован
|
|
| 06.10.2011, 15:20 [ТС] | |
|
0
|
|
|
|
|
| 18.05.2013, 17:58 | |
|
Доктор ТуамОсес, Эти все фишки из Яндекса? Если да, то я хотел предожить тот же вариант что и mik-a-el (сам пользуюсь)
0
|
|
|
Заблокирован
|
||
| 18.05.2013, 18:01 [ТС] | ||
![]() Да в яндексе нет и 10-й части того что я описал и сотой части того, что я не описал по причине "много букафф - никто не асилит всё равно"
0
|
||
|
|
|
| 18.05.2013, 18:05 | |
|
Доктор ТуамОсес, Можете попробовать: http://download.yandex.ru/desk... pSetup.exe
Ну а раз нет, то тогда я вам ничего не могу предложить, хотя идея хороша
0
|
|
|
Заблокирован
|
||
| 18.05.2013, 18:17 [ТС] | ||
![]() А его я юзаю уже много лет и он меня не совсем устраивает. Поэтому я и создал эту тему Добавлено через 2 минуты Я ищу программу описанную в корневом посте данной темы) которая помогает добывать ЗНАНИЯ. а яндекс помогает добывать ИНФОРМАЦИЮ. Уловили разницу?
0
|
||
|
|
|
| 18.05.2013, 18:22 | |
|
0
|
|
| 18.05.2013, 19:25 | ||
|
Доктор Туам, я вам такой поиск напишу в виде локального веб сайта, на языке php, дня за четыре, только что мне за это будет?
Четвертый пункт с вашего первого поста будет трудно реализовать, и он, имхо, будет наиболее ресурсоемкий ПКТуам, изучите хотя бы один ЯП и пишите что душе угодно
0
|
||
| 11.10.2013, 21:14 | |
|
Не по теме: Форумчане, Вы о чём? :D Ничего не понял :)
0
|
|
|
Заблокирован
|
||
| 12.10.2013, 11:38 [ТС] | ||
|
Не по теме: Понимаю. Много букафф. Ни асилили? А зря. Там много чего интересного описано
0
|
||
| 12.10.2013, 11:38 | |
|
Помогаю со студенческими работами здесь
20
Дефекты на харде Разные ФС на 1 харде XP и Seven на одном харде Аномалия на харде Bad блоки на харде Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога
Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
|
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование
. \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json>
Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом.
# Check if. . .
|
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так:
https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347
Основана на STM32F303RBT6.
На борту пять. . .
|
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
|
|
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу,
и светлой Луне.
В мире
покоя нет
и люди
не могут жить в тишине.
А жить им немного лет.
|
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила»
«Время-Деньги»
«Деньги -Пуля»
|
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога
Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
|
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога
Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
|