Форум программистов, компьютерный форум, киберфорум
Интернет-маркетинг, SEO
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.50/18: Рейтинг темы: голосов - 18, средняя оценка - 4.50
 Аватар для kentaw
421 / 130 / 33
Регистрация: 24.02.2009
Сообщений: 1,122

Как работает поисковая система

13.07.2009, 19:02. Показов 3695. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Как работает поисковое системи. В мире почти 200 млн. сайтов есть. Например, если набираем "привет", гугл выдает 100000 резултать за секунды. Как все это происходит?
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
13.07.2009, 19:02
Ответы с готовыми решениями:

Поисковая система
Добрый день. Я хочу попробовать сделать свой поисковик. Подскажите ссылку на материалы, где можно прочитать об этом и где можно...

Поисковая система rx24 - что это?
Вчера второй раз обнаружил, что один из мойх сайтов шкурит паук rx24. Сперва подумал прикол. Потом опять замечаю, что ко мне идут от него...

Новая поисковая система предлагающая бесплатный ко
Обнаружена новая поисковая система pay-poy.com предлагающая зарегистрированным пользователям бесплатный контекст. Цитата с...

6
 Аватар для inter-admin
9715 / 6470 / 52
Регистрация: 06.03.2009
Сообщений: 28,500
13.07.2009, 19:31
kentaw, а этот вопрос именно к задачи на Делфи или общий вопрос о поисковых ботах и кэширование поисковиками информации?
0
 Аватар для kentaw
421 / 130 / 33
Регистрация: 24.02.2009
Сообщений: 1,122
13.07.2009, 19:46  [ТС]
Нет. Обший вопрос
0
 Аватар для inter-admin
9715 / 6470 / 52
Регистрация: 06.03.2009
Сообщений: 28,500
13.07.2009, 19:50
Лучший ответ Сообщение было отмечено как решение

Решение

Примерно как то так :
Как работают поисковые системы
Зачем нам поисковые системы?

В Интернет сотни миллионов страниц с информацией. Проблема в том, как найти именно ту информацию, которая вам нужна. Прошло то время, когда люди общались в конференциях и давали друг другу ссылки на интересные сайты. Разумеется, такой обмен все еще существует, но его трудно назвать эффективным для поиска конкретной информации. Именно потребность быстро найти необходимую информацию (желательно не один, а несколько источников) и породила сервисы поисковых систем.
Поисковые системы - это сетевые сервисы в Интернет, созданные чтобы помочь пользователю в поиске информации хранящейся на различных сайтах.

Знаете ли вы, что:
Поисковая система по-английски: Search Engine (SE). Наиболее близкий аналог в русском языке - поисковый "движок". Также очень часто используется слово - "поисковик".

Разные поисковые системы работают по-разному, однако есть основные задачи, которые решают все поисковики:

* Сканируют множество сайтов в сети и составляют индекс содержащейся на них информации (индексируют сайты)
* Позволяют пользователям искать слова и комбинации слов в своем индексе.

Индексирование информации в сети

Перед тем как поисковые системы выдадут вам информацию по вашему запросу, они должны сначала найти эту информацию. Разумеется, они не сканируют весь интернет при вводе каждого запроса. Это было бы слишком расточительно и очень долго.

Вместо этого поисковики создают некую базу данных по всем страницам, содержащимся в сети, и производят поиск в этой базе данных. Разумеется, это намного быстрее, чем множество раз проводить поиск по всем сайтам. Как же поисковики заполняют эту свою базу данных (обычно, базу данных называют индексом поисковой системы, а включение определенного сайта в этот индекс называют индексированием сайта).

Каждый поисковик имеет специальную программу - робота, которая и индексирует сайты. Эта программа называется пауком (spider), а процесс индексирования - ползание паука(spider crawling). И, действительно, если подумать, то процесс напоминает ползание паука по различным сайтам и собирание информации с них (индексация).

Знаете ли вы, что:
Поисковых пауков часто называют - ботами. Каждый поисковый бот имеет свое название, чтобы можно было отличать ботов именно данной поисковой системы. Это имя отображается обычно в поле User-Agent запроса к серверу. Например, бот Google имеет имя - Googlebot, а Яндекса - Yandex. Эти названия веб мастер может использовать, например, в файле robots.txt , чтобы запретить определенному поисковику индексировать некоторые страницы.
Некоторые, веб программисты, создают различные страницы для различных поисковых ботов. Например, при заходе бота от Yandex на страницу, выдается одна страница, а для бота Google - другая. Еще хуже, если для поискового бота выдается одна страница, а для пользователя - другая. Это все нечестные приемы и если поисковики узнают об этом, то велика вероятность, что такой сайт совсем исключат из индекса поисковой системы. (Исключение из индекса называется БАН).

Как же пауки начинают свое путешествие по сети?
Обычно, поисковые боты начинают свое путешествие с самых популярных и посещаемых сайтов и страниц в сети. Они индексируют слова на данной странице, а затем следуют по всем ссылкам с текущей страницы и с других страниц того же сайта. Таким образом поисковый бот довольно быстро сканирует наиболее широко используемые ресурсы сети.
Сканирование страницы

Теперь рассмотрим, что происходит, когда поисковый бот пришел на некую страницу и начал ее сканирование.

Поисковик составляет список слов, присутствующих на странице и заносит эти слова с свою базу с некоторыми весовыми коэффициентами. Эти коэффициенты затем будут влиять на позиции данной страницы в выдаче поисковика по данному слову или словосочетанию, включающему данное слово.

Разные поисковики используют разные системы "весов" для слов на странице. К тому же, обычно поисковики не раскрывают принцип начисления "весов", для того, чтобы веб мастера искусственно не завышали рейтинг сайта.

Однако, можно выделить несколько общих моментов, которые, скорее всего, присутствуют во всех поисковых системах при начислении "веса" слова.

* Слово, присутствующее в заголовке страницы (тег title), получит больший вес, чем то же слово внутри текста на странице.
* Слово, присутствующее в тегах meta, добавит веса странице. Однако, так как содержимое этих тегов не отображается пользователю, то возникает соблазн "запихать" в них как можно больше различных слов. Поэтому, есть мнение, что в настоящее время поисковики уделяют содержимому этих тегов все меньше и меньше внимания.
* Слово в заголовках и подзаголовках (теги H1, H2, и т.д.) имеет повышенный вес.
* Слово, выделенное тем или иным способом (например, жирным (тег B) или курсивом (тег I), скорее всего более "ценное" для поисковика (не зря же вы его выделили).
* Раньше бытовало мнение, что если слово расположено в первых 20 строках на странице, то оно более "ценно" для поисковика. Не думаю, что сейчас это имеет какое-либо значение. Хотя, кто знает?
* Слово, у которого форма точно соответствует введенному в строке запроса, явно имеет больший вес, чем другая форма этого слова. Например, если пользователь ввел "Слон", то слово "слон" на странице будет цениться больше, чем слово "слону".
* Есть понятие "вес слова на странице". Это отношение количества повторений данного слова на странице к общему количеству слов на странице. Раньше это был существенный фактор для поисковиков. Однако, сегодня поисковики уделяют ему все меньше внимания, так как можно создать страницу заполненную одним и тем же словом, которая, очевидно, будет иметь "вес" близкий к 1. Другими словами, этот параметр может быть легко поднят нечестным на руку вебмастером.

Существует еще множество различных приемов, как можно поднять "вес" слова на странице, однако, насколько поисковики учитывают тот или иной параметр, точно не знает никто.

Скорее всего, каждый поисковик создал свою собственную систему расчета "весов" слов на странице, которая базируется как на параметрах перечисленных выше, так и на других, уникальных для каждого поисковика значениях. Как я уже говорил, система расчета "весов" держится в строжайшей тайне. Разумеется, эти системы у поисковиков подвержены изменениям. Периодически стратегии подсчета корректируются, вводятся новые параметры, изменяются старые.
Выдача результатов поиска

Теперь нетрудно представить, что происходит, когда пользователь вводит запрос к поисковику в строке поиска.

Поисковик проводит поиск в своей базе. Находит страницы, подходящие под запрос пользователя и выводит их в порядке убывания соответствия запросу. Соответствие запросу называется - релевантностью страницы (page relevancy). Соответствие запросу определяется по определенным алгоритмам, частично описанным выше. Именно здесь и применяются все "веса" и коэффициенты определенные поисковым ботом при индексировании страницы.

Все становится сложнее, если пользователь ввел не одно, а два или больше слов. Здесь в игру вступают другие факторы. Например, как близко расположены слова на странице друг относительно друга. Очевидно, что чем ближе в тексте искомые слова, тем страница релевантнее (более соответствует запросу).

Бывалые оптимизаторы и другие, опытные в раскрутке люди, дочитав до этого места, уже, видимо, возмущаются: Как же так? А как же внешние факторы, влияющие на выдачу в поисковиках? Разумеется, я не оставлю их без внимания. Просто до этого момента, я описывал, влияние только внутренних факторов на выдачу страницы в поисковике. Теперь пришло время упомянуть и про популярность страницы.

Как уже было сказано то, что описано выше называется внутренними факторами, влияющими на положение страницы в выдаче поисковика. Существует так же и внешние факторы, причем они не менее (а зачастую даже и более) важны, чем внутренние.

Каждая поисковая система имеет свой параметр, который определяет популярность страницы среди других участников сети Интернет. У разных поисковиков он называется и определяется по-разному, но его назначение остается достаточно простым:
Чем популярнее сайт у других участников сети, тем выше его шансы появиться в выдаче поисковой системы.

Это действительно логично. Если на сайт ссылается множество других сайтов, то, скорее всего, там размещен качественный и нужный пользователю контент. Хотя это не всегда так. Именно на этом часто выигрывают проекты, имеющие хороший бюджет. При раскрутке сайта, покупается множество ссылок с других сайтов, поднимая популярность до очень хороших значений.
спасибо Александру Архипову
3
 Аватар для kentaw
421 / 130 / 33
Регистрация: 24.02.2009
Сообщений: 1,122
13.07.2009, 20:00  [ТС]
Спасибо и тебе
0
0 / 0 / 0
Регистрация: 04.08.2009
Сообщений: 6
06.08.2009, 22:16
Не знаю, относится ли мой вопрос о поисковой системе к данной теме, может его надо переместить или создать новую тему.
Достаточно часто приходится в нете заниматься поиском нужной информации в различных областях знаний. В основном использую для поиска Yandex, реже- Nigma, Google и др. Недостаток- большое количество запросов для отыскания крупиц информации и, как следствие, временные затраты.
IMHO, хорошая поисковая система (в общих областях знаний) в первую очередь должна
1. Привязана к особенностям построения разговорного стиля, характерного для данной местности
2. Для поиска использовать как, собственно, оригинальный запрос пользователя, так и механизм расширенного запроса с применением словарей: толкового, грамматического, синонимов, омонимов, сленговых выражений (особенно актуально для технической тематики) и т.д.
Например, "неисправность", в большинстве случаев для нашего поисковика (для остальных языковых систем ассоциативный словарный ряд может отличаться) , можно заменить на сленговое "глючит", или: "размещена"- "залита" и т.д.
Проблема может быть только с реализацией такой системы, ведь для полного отображения мировых ресурсов по данному запросу потребуется подключение всех языковых модулей.
Может, кто подскажет, какая общая поисковая система на данный момент работает по близкой схеме.
Для увеличения количества отображаемых ссылок, удовлетворяющих условиям поиска, в настройках системы можно предусмотреть опции пользователя как постоянно используемые, так и соответствующие каждому отдельному запросу.
Опции- массив выражений, слов, чисел, текстовых и числовых комбинаций, связанных со словами из заданного списка.
Например: файлообменник - название файлообменника 1 ... название файлообменника N
фото - .jpeg, .bmp
Добавлено через 23 часа 13 минут 34 секунды
Привязана к особенностям построения разговорного стиля, характерного для данной местности
В некоторых случаях определенные сведения по интересующим вопросам могут быть получены из обсуждения сопутствующих тем различными группами специалистов, например: электронщики, IT ишники.
Дифференцирование информации по данным вопросам для каждой из групп спецов можно осуществить с помощью подключаемых модулей словарей перевода общеупотребительных слов на профессиональный сленг, например, для данного случая, словари электронщиков, IT ишников.
В общем виде простейшая поисковая система может включать в себя собственно поисковик- боты; подключаемые модули - словари.
0
0 / 0 / 0
Регистрация: 04.08.2009
Сообщений: 6
09.08.2009, 18:08
Судя по https://www.cyberforum.ru/showthread.php?p=169236
Новые разработки позволят проводить повторную обработку результатов стандартного поиска по таким параметрам, как ... смысловая категория...
Google использует дополнительные средства анализа при идентификации и классифицировании объекта поиска, установление логических связей с другими объектами, возможно, с помощью подключаемых модулей, в т.ч. словарей.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
09.08.2009, 18:08
Помогаю со студенческими работами здесь

Работает через раз поисковая система гугл
Просто ничего не происходит, как будто интернета нет. Причем любая другая (яндекс, мэйл) работает нормально. Сижу с хрома. обновление...

Поисковая система. Как убрать?
Как убрать в поисковой системе google chrome yandex? переустановил систему, но в прошлый раз я как то удалил поисковую систему и у...

Firstsputnik.ru в Chrome как поисковая система по умолчанию
Доброго времени суток! Как и многие, подцепил "почти случайно" целый "букет" из всяких агентов и прочего. Вроде бы всё победил, но одна...

В Google Chrome установилась поисковая система smartsputnik.ru по умолчанию, как исправить?
Доброго времени суток. В браузере Google Chrome поисковая система установилась по умолчанию на smartsputnik. Исправить не получается,...

В Google Chrome поисковая система smartsputnik.ru по умолчанию c правами администратора, как исправить?
лог прилагаю


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
Как я обхитрил таблицу Word
Alexander-7 21.03.2026
Когда мигает курсор у внешнего края таблицы, и нам надо перейти на новую строку, а при нажатии Enter создается новый ряд таблицы с ячейками, то мы вместо нервных нажатий Энтеров мы пишем любые буквы. . .
Krabik - рыболовный бот для WoW 3.3.5a
AmbA 21.03.2026
без регистрации и смс. Это не торговля, приложение не содержит рекламы. Выполняет свою непосредственную задачу - автоматизацию рыбалки в WoW - и ничего более. Однако если админы будут против -. . .
Программный отбор значений справочника
Maks 21.03.2026
Установка программного отбора значений справочника "Сотрудники" из модуля формы документа. В качестве фильтра для отбора служит предопределенное значение перечислений. Процедура. . .
Переходник USB-CAN-GPIO
Eddy_Em 20.03.2026
Достаточно давно на работе возникла необходимость в переходнике CAN-USB с гальваноразвязкой, оный и был разработан. Однако, все меня терзала совесть, что аж 48-ногий МК используется так тупо: просто. . .
Оттенки серого
Argus19 18.03.2026
Оттенки серого Нашёл в интернете 3 прекрасных модуля: Модуль класса открытия диалога открытия/ сохранения файла на Win32 API; Модуль класса быстрого перекодирования цветного изображения в оттенки. . .
SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++
8Observer8 17.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-rectangles-sdl3-c. zip finish-rectangles-sdl3-cpp. zip
Символические и жёсткие ссылки в Linux.
algri14 15.03.2026
Существует два типа ссылок — символические и жёсткие. Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru