Форум программистов, компьютерный форум, киберфорум
Java SE (J2SE)
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.71/92: Рейтинг темы: голосов - 92, средняя оценка - 4.71
0 / 0 / 0
Регистрация: 18.08.2012
Сообщений: 8
1

Парсинг для чайника

19.08.2012, 00:08. Показов 16866. Ответов 4
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Программа парсинг.
есть сайт.
Задача - вытащить всю инфу о кафе ,барах и ресторанах.(адрес,мыло,время работы,название,все что будет)
1 Перебирать все странички(по ссылкам или другим способом) с кафе барами и ресторанами
2 Заходить по ссылкам в описание кафе бара ресторана
3 Вытаскивать всю нужную инфу из описания.
4 Сохранять полученные данные в файл csv
5 При запуске программы показывать лог выполнения(что сейчас происходить)

Изучением Java занялся месяц назад. Прошу помочь с реализацией.
Что нужно для реализации?
Что почитать?
Примеры с описанием(буду безмерно благодарен)
Спасибо.
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
19.08.2012, 00:08
Ответы с готовыми решениями:

Git, GitHub, bitbucket - краткие инструкции для чайника
Попробую "на пальцах" объяснить как это все работает. Много подробностей будет опущено. Цель данной...

Java для "чайника"
Здравствуйте, уважаемые посетители этого раздела! Пришел я к вам из раздела по Pascal и хочу...

Вопрос чайника - где ошибка?
Народ, кому не сложно, скинет простейший код, который рисует круг, или квадрат, или что угодно....

Парсинг XML файла для чайника
Здравствуйте! Имеется следующая строка на xml: <temperature value="293.15" min="293.15"...

4
2586 / 2259 / 257
Регистрация: 14.09.2011
Сообщений: 5,185
Записей в блоге: 18
19.08.2012, 03:34 2
html это своего рода xml, поэтому вполне можно воспользоваться парсерами xml и технологиями xquery и xpath
0
2 / 2 / 0
Регистрация: 02.06.2012
Сообщений: 34
19.08.2012, 14:31 3
Актуально Ап
0
0 / 0 / 0
Регистрация: 18.08.2012
Сообщений: 8
19.08.2012, 14:59  [ТС] 4
Нашел несколько краулеров примеров http://www.ulimatbach.de/java/Crawler.html
Подскажите какой из них подходит в моей ситуации,или от какого отталкиваться.
0
0 / 0 / 0
Регистрация: 18.08.2012
Сообщений: 8
20.08.2012, 20:33  [ТС] 5
Дело по маленьку пошло))
И так , научился доставать нужную информацию(нужный текст) и ссылки.
Теперь вопрос такой
Имею код
Java
1
2
3
4
5
6
7
8
9
10
11
12
13
public class Parser {
    public static void main(String[] args) throws IOException {
 
            String url = "http://kharkov.nezabarom.ua/Kafe-Bar-Restoran?pg="; // урл странички
            Document doc = Jsoup.connect(url).timeout(5000).get(); // получаем страницу
            Elements links = doc.select("div.ns_object_title a"); // получаем ссылки на кафешки
            //String Links = links.html();
            Elements links2 =doc.select("div.rulerblock a");//получаем ссылки на другие страницы
            //String Links2=links2.html();
            System.out.print("Ссылки в описание" +links );//Ссылки в описани
            System.out.print("Ссылки на другие страницы"+  links2);//Ссылки на другие страницы
    }
}
В результате получаю
Lisp
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
Ссылки в описание
<a href="http://kharkov.nezabarom.ua/Kafe-Bar-Restoran/itgril/">Итальянский гриль</a>
<a href="http://kharkov.nezabarom.ua/Kafe-Bar-Restoran/jaske/">Яскэ</a>
<a href="http://kharkov.nezabarom.ua/Kafe-Bar-Restoran/yaske/">Яскэ</a>
<a href="http://kharkov.nezabarom.ua/Kafe-Bar-Restoran/buhara/">Бухара</a>
<a href="http://kharkov.nezabarom.ua/Bouling/maximum/">Боулинг-Центр Максимум</a>
<a href="http://kharkov.nezabarom.ua/Kafe-Bar-Restoran/gold_ducat/">Золотой Дукат</a>
<a href="http://kharkov.nezabarom.ua/Razvlekatelnye-kompleksy/compas/">Компас</a>
<a href="http://kharkov.nezabarom.ua/Klub/it_cafe/">IT САFE_</a>
<a href="http://kharkov.nezabarom.ua/Kafe-Bar-Restoran/kokawa/">Книжная кофейня K˚KAWA</a>
<a href="http://kharkov.nezabarom.ua/Kafe-Bar-Restoran/caffissimo/">Caffissimo</a>
Ссылки на другие страницы
<a class="numb_a" href="/Kafe-Bar-Restoran?pg=&amp;pg=0">1</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=1">2</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=2">3</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=3">4</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=4">5</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=5">6</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=6">7</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=7">8</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=8">9</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=9">10</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=1"></a>
<a class="numb_a" href="/Kafe-Bar-Restoran?pg=&amp;pg=0">1</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=1">2</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=2">3</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=3">4</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=4">5</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=5">6</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=6">7</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=7">8</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=8">9</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=9">10</a>
<a class="numb" href="/Kafe-Bar-Restoran?pg=&amp;pg=1"></a>
Ув Форумчане,помогите.Подскажите,каким образом мне переходить по этим ссылкам - По страничкам и в каждой из этих страничек заходит в описание где я и буду вытаскивать нужные мне данные.Как это реализовать?Спасибо.
0
20.08.2012, 20:33
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
20.08.2012, 20:33
Помогаю со студенческими работами здесь

Использование модификатора ref для ссылок на объекты (для чайника)
Всем привет! Изучаю c# по учебнику Шилдта, также разбираю примеры из него. Из примера ниже мне...

ДК для чайника
Мой друг попросил меня помочь ему подобрать ДК 5.1, но не по отдельности, а как говориться в &quot;одной...

Литература для чайника для понимания VCL
Добрый день. Заинтересовался, как Delphi &quot;рисует&quot; компоненты VCL. То есть есть желание чуток...

Atoi для чайника
Условие задания под спойлером. Данные берутся из input.txt, записываются в output.txt Дана...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru