|
6 / 6 / 1
Регистрация: 15.09.2013
Сообщений: 149
|
|
Поисковый двигатель19.09.2013, 21:09. Показов 8298. Ответов 68
Метки нет (Все метки)
Привет-привет форум \о/ Корни пошли отсюда:
Поиск информации.Реально ли? Следовательно,я решил написать небольшую поисковую систему Решил создать эту тему, буду писать сюда свой код(решил писать на Java,да.Удобно выложить что то сюда,потом перечитать,исправить,дополнить,если так делать нельзя,пардон).Огромная просьба,подсказывайте мне как его улучшить) Думаю можно начать,а начать надо с теории,следовательно, разделении работы поисковой системы,а именно: "Три столпа поисковика" 1)Краулер - программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.Как подсказывает нам википедия. (http://ru.wikipedia.org/wiki/Поисковый робот) Для отдаленных мира сего:Вообщем эта такая программка,которая ползает по сайтам и все их содержимое заносит в базу,в моем случае это будет текст. 2)Индексатор - Программа, которая анализирует тексты,скачанные краулером. То есть, краулер качает всю страницу(и код тоже),а индексатор всю эту шелуху отсеивает,подготавливая чистые,хорошие данные,занося их в базу. 3)Ядро!) сама поисковая система.Тут можно сказать,что это - программа,которая ищет по данным,которые ей подготовил индексатор.Сюда можно отнести и веб интерфейс,то есть сайт,в котором мы будем вбивать слова для поиска. Все выше сугубо мое понимание,возможно оно и неправильное,если есть ошибки - скажите,только спасибо скажу. Я думаю нужно начать!) А начну я с этого: 1)Создать программу(краулер) которая обойдет все сайты в моем районе(думаю,что на весь интернет делать такую весчъ было бы глупо,хотя кто знает,кто знает... на что способна Java) и скачает их исходные тексты.Но для начала надо определиться,как хранить данные,в базе данных? или просто в файлах,txt,например) Добавлено через 43 секунды Пост будет дополняться* Добавлено через 22 минуты А начал я с установки замечательной библиотеки - Jsoup.Всем срочно качать!) Jsoup
1
|
|
| 19.09.2013, 21:09 | |
|
Ответы с готовыми решениями:
68
Поисковый робот Двигатель Экзамен, ООП. Классы двигатель, автомобиль и грузовик |
|
842 / 480 / 58
Регистрация: 18.09.2012
Сообщений: 1,688
|
|
| 20.09.2013, 17:46 | |
|
LanGrande, ну если .txt, то придётся писать свой слой, для удобной обработки текстовых файлов( изобретать велосипед), бд вас избавить от таких вещей.
1
|
|
|
6 / 6 / 1
Регистрация: 15.09.2013
Сообщений: 149
|
||
| 20.09.2013, 18:31 [ТС] | ||
|
0
|
||
|
638 / 416 / 27
Регистрация: 03.11.2009
Сообщений: 1,855
|
|
| 20.09.2013, 19:49 | |
|
а файловая система вас избавит от миллионов файлов?
создайте 1000 файлов в папке и откройте ее, быстро открывается? если файлов миллион? а базы данных могут разносится на разные серверы где то были статьи как сделан поиск гугла\яндекса
1
|
|
|
6 / 6 / 1
Регистрация: 15.09.2013
Сообщений: 149
|
||
| 20.09.2013, 19:57 [ТС] | ||
|
0
|
||
| 20.09.2013, 20:07 | |
|
Не по теме: Леша? Бабушкин? ты что ли ?
2
|
|
|
6 / 6 / 1
Регистрация: 15.09.2013
Сообщений: 149
|
|||||||||||
| 20.09.2013, 20:35 [ТС] | |||||||||||
|
Пам парам,небольшая программка краулер версия 1.0)):
Добавлено через 45 секунд Комментируем,предлагаем что-то свое,кидаемся тапками) Добавлено через 6 минут Госпади....какие же ссылки он находит Пару примеров:
Хм, надо регулярками парсить ссылки,думаю,да.Срочно покушать документации надобно)
0
|
|||||||||||
|
842 / 480 / 58
Регистрация: 18.09.2012
Сообщений: 1,688
|
|
| 20.09.2013, 21:58 | |
|
LanGrande, надо бы все по классам сразу разносить, по интерфейсам. Плохо все в main пихать.
1
|
|
| 20.09.2013, 23:54 | |
|
1
|
|
| 20.09.2013, 23:58 | |
|
Не по теме: дааа, лурк, он такой :D
0
|
|
|
6 / 6 / 1
Регистрация: 15.09.2013
Сообщений: 149
|
||||||||||||||||||||||||||
| 26.09.2013, 18:27 [ТС] | ||||||||||||||||||||||||||
|
Все никак не дойду до , собс-но, решения,тестирую систему записи в файл:
Добавлено через 8 минут UPD
Добавлено через 14 минут Пам пам пам:
Проблема с записью в файлы.Добавлено через 1 минуту По сути вот этот код должен работать:
Оу,запись в цикле же должна.... Добавлено через 7 минут Хотя.. сейчас вывел тут строки,вроде все норм,но почему записывается одна строка - не знаю. Добавлено через 21 час 44 минуты Ошибка,наверняка,пустяковая,но где)
0
|
||||||||||||||||||||||||||
|
ɐwʎ ɔ vǝmоɔ dиw ɐʚонɔ
|
|||||||||||||||||||||
| 27.09.2013, 19:12 | |||||||||||||||||||||
|
блин, как же мне эта тема нравиться
![]()
Не по теме: теперь я официально подписан на свежие новости с поля боя :yahoo: Добавлено через 6 часов 37 минут немного поигрался, что в итоге получилось
в коде задается лишь стартовая точка сканирования
для раздумий, может что полезное кто подчерпнет для себя
1
|
|||||||||||||||||||||
|
6 / 6 / 1
Регистрация: 15.09.2013
Сообщений: 149
|
||||||||||||||||
| 27.09.2013, 19:51 [ТС] | ||||||||||||||||
|
Хм..код рабочий)) дожую потоки,обновлю код,все еще думаю над проверкой ссылок,соб-но
Добавлено через 1 минуту oO, /me пошел срочно разбирать этот код. Добавлено через 11 минут Ема е,10 тысяч ссылок)точнее 10023.Встречаются и такого вида:
И еще,я задумался над такой весчью,как запросы к серверу,то есть, краулер к сайту подключился,а потом веб-мастер смотрит какой именно бот к нему подключился.(вот вытянивают там бот гугл и т д,вот можно такую же штуку придумать,собс-но, дать название боту) Добавлено через 18 минут И еще один вопрос меня интересует,как вытянуть тут в коде определенную ссылку?например,код выполнился,нам нужно там вытащить ссылку под определенным номером. Добавлено через 57 секунд
0
|
||||||||||||||||
|
6 / 6 / 1
Регистрация: 15.09.2013
Сообщений: 149
|
|
| 27.09.2013, 20:25 [ТС] | |
|
Да знаю...) надо UTF-16 читать,видимо.
0
|
|
|
ɐwʎ ɔ vǝmоɔ dиw ɐʚонɔ
|
||||||
| 27.09.2013, 20:27 | ||||||
|
имя боту это конечно здорово, но поверьте это как делить шкуру еще не убитого медведя. А по поводу "номер ссылки", то порядковый номер строки в файле БД я беру вот так
1
|
||||||
|
6 / 6 / 1
Регистрация: 15.09.2013
Сообщений: 149
|
||
| 27.09.2013, 20:35 [ТС] | ||
|
А вот что еще можно в него добавить?) говорите,комментируйте(будет занятие на выходные))
я сейчас думаю над расширением начального списка сайтов,брать его из файла.Также,складывать все результаты в файл.Пока отдельный файл,пока я не улчшу проверку,собс-но,ссылок.Может что то еще?) Добавлено через 37 секунд
0
|
||
|
ɐwʎ ɔ vǝmоɔ dиw ɐʚонɔ
|
|
| 27.09.2013, 20:52 | |
|
кстати вот подумалось, можно как вариант перенастроить паука, чтобы тот собирал чисто уникальные домены, а затем проверял - если есть sitemap, то адреса брать с них (заодно подтянуть навыки в xml), если нету - то в пусть лошматит в рукопашную данный сайт но не выходя за границы домена
Добавлено через 9 минут что-то я натупил с mark() методом Добавлено через 7 минут собственно а зачем конкретное значение из конкретной строки? это поток символов, разве что можно посчитать "\n" и спрогнозировать, но читать все равно придется весь файл еще раз.
1
|
|
|
6 / 6 / 1
Регистрация: 15.09.2013
Сообщений: 149
|
|||
| 27.09.2013, 21:01 [ТС] | |||
|
Добавлено через 8 минут
0
|
|||
|
ɐwʎ ɔ vǝmоɔ dиw ɐʚонɔ
|
|
| 27.09.2013, 21:11 | |
|
имхо лучше "анализатор" написать, ибо наш с вами паучек на данном этапе умеет только ссылки собирать уникальные и сам же по ним переходит для сбора новых, периодически сохраняя "бд" (кстати чувствую на SQLite скоро перейдем
)вообще всё должно быть "по полочкам". Один собирает ссылки, другой вытягивает с этих ссылок инфу, третий проводит статистику. Так что боюсь тремя классами мы тут с вами точно не ограничимся какие дальнейшие шаги думаете предпринимать? написать анализатор? кстати пробежался по сайтам, не особо сейчас смотрю sitemap.xml генерируют, так что пусть наверное будет как есть, само наполняет (мы кстати плевать сейчас хотели на тег <noindex>, думаю веб-мастера не будут сильно в обиде )
1
|
|
| 27.09.2013, 21:11 | |
|
Помогаю со студенческими работами здесь
20
СМА LG WD-80180NU замена щёток, двигатель крутит рывками, непонятно модуль или двигатель? СМА Candy CS2 108RU не крутит двигатель, не крутит двигатель Поисковый запрос
Поисковый робот Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование
. \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json>
Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом.
# Check if. . .
|
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так:
https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347
Основана на STM32F303RBT6.
На борту пять. . .
|
Символьное дифференцирование
igorrr37 13.02.2026
/ *
Программа принимает математическое выражение в виде строки и выдаёт его производную в виде строки и вычисляет
значение производной при заданном х
Логарифм записывается как: (x-2)log(x^2+2) -. . .
|
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
|
|
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу,
и светлой Луне.
В мире
покоя нет
и люди
не могут жить в тишине.
А жить им немного лет.
|
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила»
«Время-Деньги»
«Деньги -Пуля»
|
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога
Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
|
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога
Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
|