Форум программистов, компьютерный форум, киберфорум
Наши страницы
Алгоритмы
Войти
Регистрация
Восстановить пароль
 
Рейтинг 4.67/6: Рейтинг темы: голосов - 6, средняя оценка - 4.67
vantyz
54 / 54 / 2
Регистрация: 04.03.2012
Сообщений: 495
1

Алгоритм поиска

27.03.2012, 20:19. Просмотров 1114. Ответов 6
Метки нет (Все метки)

Привет всем.Вот тут задумался над алгоритмом поиска,смотрите я придумал такую схему:краулер обходит сайты,и сохраняет текст со страницы,юрл,заголовок в текстовые файлы.Причем для каждого сайта создается отдельная папка,а в ней уже все текстовые файлы.Далее ядро поиска ищет по этим файлам,причем,чем больше упоминаний слов на странице тем выше будет релевантность у документа.

Уважаемые программисты ,вы считаете такую систему хорошей для больших нагрузок.
Выдержит ли такая система миллиарды документов,про оборудование не говорите,просто ради интереса,мне кажется ,что все это рухнет.
Вообще,очень интересно файловое устройство высоко нагруженных поисковиков т.е (что где сохраняется ,в каких расширениях,как происходит индексация,ну и так далее)

Можете помочь.ссылки тоже,даже на буржуйские сайты).
0
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
27.03.2012, 20:19
Ответы с готовыми решениями:

алгоритм поиска
помогите пожалуйста выбрать правильный ответ в алгоритме. Это тестовая задачка Для построения...

Алгоритм поиска совпадений
Всем привет! Я веб-программист. Хочу сделать доброе дело, написать один микро-сервис. Идея...

Алгоритм поиска путей
Привет. Ребята, такая тема, у меня есть граф, взвешенный, неориентированный, у меня есть пути из...

Алгоритм поиска VBA
История классическая - задали задачу и после 3 часов медитирования над ней результат = 0. Буду...

Алгоритм поиска алгоритма
Здравствуйте! Хочу написать программу которая будет искать алгоритм который связывает числа....

6
Merovingian
54 / 54 / 9
Регистрация: 24.09.2011
Сообщений: 149
27.03.2012, 21:28 2
Дело в том, что эта система - не сайт, её не нагружают, к ней не обращаются
Представьте как начнется работа такой системы, как её запустить?

Системе скармливается URL и она сразу же начинает обрабатывать страницу, больше информации никакой нет. Работает она, наверное, как DFS или BFS(поиск/обход в глубину и в ширину соответственно)

Систему не нагружают! Ей не скармливают какое то определенное количество URL за определенное время. URL'ки просто летят в базу.

Я думаю, что сначала запускается алгоритм поиска(пусть DFS), ему передается корень в качестве аргумента, он переходит по ссылкам либо пока не упрется, либо пока не происходит какое то событие(например, робот ходит по сайту уже 30 сек - пора переходить на другой сайт). Тогда робот запускает алгоритм заново для следующего корня(URL), который он берет из базы))
1
t1m0n
631 / 409 / 28
Регистрация: 03.11.2009
Сообщений: 1,848
27.03.2012, 23:04 3
развалится, тем более, можно на сайте можно много одинаковых слов написать и сайт будет в топе, но полезной инфы не будет...

про поиск были статьи на хабрахабре
1
Merovingian
54 / 54 / 9
Регистрация: 24.09.2011
Сообщений: 149
28.03.2012, 00:03 4
Цитата Сообщение от t1m0n Посмотреть сообщение
развалится
Как то хоть поясняйте
1
t1m0n
631 / 409 / 28
Регистрация: 03.11.2009
Сообщений: 1,848
28.03.2012, 00:14 5
Поисковые технологии или в чем загвоздка написать свой поисковик
1
vantyz
54 / 54 / 2
Регистрация: 04.03.2012
Сообщений: 495
28.03.2012, 11:06  [ТС] 6
Спасибо ссылка на хабр очень помогла.Теперь стало ясно,тока надо выбрать язык программирования на чем это все писать.все сразу скажут c++,а может есть еще какие-нибудь альтернативы,хотя наверно альтернатив нет.

Добавлено через 25 минут
Я вот тут не могу придумать,что дальше делать. Краулер скачивает в базу страницы сайта в формате html,без всяких картинок ,флеш.Что дальше то делать, индексатор......
Тока можете поподробнее объяснить.
0
vantyz
54 / 54 / 2
Регистрация: 04.03.2012
Сообщений: 495
09.04.2012, 19:15  [ТС] 7
Привет всем,ребят давайте вернемся к теме,итак я разделяю работу поисковой системы на несколько этапов или глав:

1)краулер- ходит по сайтам,и сохраняет страницы этих сайтов в папку(базу) ,в формате html.Ссылки на сайты краулер берет из какого-нибудь файлика ну например txt.
2)индексатор-вот тут мне не ясно,можете объяснить простым понятным языком,что он делает,в каком формате сохраняет,плиз просто объясните.

Добавлено через 17 часов 55 минут
Ну так как ,что интересного скажете

Добавлено через 2 часа 45 минут
ау ну плиз помогите
0
09.04.2012, 19:15
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
09.04.2012, 19:15

Алгоритм поиска информации
ПОИСК И ХРАНЕНИЕ ИНФОРМАЦИИ В СПРАВОЧНИКАХ Цель: Изучение основных принципов построения...

Алгоритм поиска ошибки.
Приветствую. :) Нужна помощь в составлении алгоритма поиска ошибки в таблице. Ломаю голову,...

Алгоритм поиска перестановок
помогите написать алгоритм поиска перестановок в числе, но не простой, а чтобы были перестановки по...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2019, vBulletin Solutions, Inc.
Рейтинг@Mail.ru