Форум программистов, компьютерный форум, киберфорум
Java EE (J2EE)
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.60/5: Рейтинг темы: голосов - 5, средняя оценка - 4.60
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 19

Скрапинг всех страниц с Jsoup

20.09.2018, 18:32. Показов 930. Ответов 3

Студворк — интернет-сервис помощи студентам
Добрый день!
Данный пример скачивает цену и адрес только с видимой страницы.
Как будет выглядеть код, если нужно получить данные со всех страниц?
Их там 20 штук.

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
public class ParseZillow {
    public static void main(String args[]){
        print("running...");
        Document document;
        try {
            document = Jsoup.connect("http://www.zillow.com/miami-fl/").get();
 
            String title = document.title(); 
            print("  Title: " + title); //Print title.
 
            Elements price = document.select(".zsg-photo-card-price:contains($)"); 
            Elements address = document.select("span[itemprop]:contains(miami-fl)"); 
             
            FileOutputStream fout=new FileOutputStream("*.csv");  
            PrintStream csv=new PrintStream(fout);  
            csv.println("name   price   number sold");
            for (int i=0; i < price.size()-2; i++) {
                csv.println(address.get(i).text() + "   " + price.get(i).text());
            }
            fout.close();
 
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
 
 
    public static void print(String string) {
        System.out.println(string);
    }
 
}
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
20.09.2018, 18:32
Ответы с готовыми решениями:

HTTP Status 500 - java.lang.NoClassDefFoundError: org/jsoup/Jsoup
Добавил библиотеку в pom, все нормально импортируется. Но в рантайме кидает ошибку: &quot;Handler processing failed; nested exception is...

Найти количество страниц книги по сумме цифр номеров всех страниц
Добрый день! Задача звучит так: &quot;Дано n - сумма цифр номеров всех страниц некоторой книги. Найти количество страниц этой книги.&quot; Не...

Скрапинг компаний
Нужно написать скрипт который будет собирать информацию про компинии с города надо название, емейл , url , адресс достаточно города. Есть...

3
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7391 / 4818 / 1246
Регистрация: 30.03.2015
Сообщений: 13,687
Записей в блоге: 29
20.09.2018, 18:33
в цикле перебираем урлы всех этих 20 страниц и выдергиваем инфу нужную.
0
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 19
20.09.2018, 19:17  [ТС]
Пожалуйста покажите как должно быть, у меня в этом мало опыта. Нужно чтобы ссылки перебирались рекурсивно, что бы не вписывать каждый url отдельно.
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7391 / 4818 / 1246
Регистрация: 30.03.2015
Сообщений: 13,687
Записей в блоге: 29
20.09.2018, 19:32
Hollywood33, а как я должен узнать какие конкретно страницы тебе нужны?
почитай про циклы.
заходишь на стартовую страницу, берешь оттуда все нужные ссылки в коллекцию, циклом проходишь по коллекции и выдергиваешь со страниц нужные данные.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
20.09.2018, 19:32
Помогаю со студенческими работами здесь

Скрапинг телефона
Здравствуйте. Пытаюсь разобраться в данной теме и возникла следующая проблема: хочу вытащить данные для каждой компании из...

Какова сумма всех цифр во всех номерах страниц?
В книге 216 страниц, пронумерованных от 1 до 216. На каждой странице напечатан ее номер. Какова сумма всех цифр во всех номерах страниц?

Хранить стили всех страниц в одной css для всех подключаемых файлов через include
Добрый день. Создаю простенький сайт, так скажем.. новостной. У меня есть верхняя шапка, левое меню, и справа контент. Именно справа...

Ссылка со всех страниц
Договорился о ссылке на свой сайт, с сайта с ПР2. Они сделали ссылку на меня не только с главной , но и со всех страниц. Это хорошо или...

Продажа всех страниц
У меня такой вопрос. Подключил к сайту SAPE. Оный определил 57 страниц для продажи. Назначил максимум ссылок на странице - 15 (в том числе...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
Символьное дифференцирование
igorrr37 13.02.2026
/ * Логарифм записывается как: (x-2)log(x^2+2) - означает логарифм (x^2+2) по основанию (x-2). Унарный минус обозначается как ! */ #include <iostream> #include <stack> #include <cctype>. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru