Форум программистов, компьютерный форум, киберфорум
Java SE (J2SE)
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.92/13: Рейтинг темы: голосов - 13, средняя оценка - 4.92
0 / 0 / 0
Регистрация: 22.05.2014
Сообщений: 53

Парсер JSOUP

17.06.2014, 17:30. Показов 2698. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Привет,недавно начал изучать изучение java...
Сейчас приступил к использованию библиотеки JSOUP, все получается вытягивает ссылки, текст и т.д.
Но вот столкнулся с проблемой, нужно чтоб вытягивало только определенные ссылки и текст, в смысле
HTML5
1
2
3
4
5
6
7
<div class="preview">
   <div class="aaa">
         <a href = ""> .... </a>
   </div>
   <div class="bbb">...</div>
   <div class="ccc">...</div>
</div>
нужно чтоб пропускало все <div class> , а вытягивало с <div class="aaa">
вот мой код

Java
1
2
3
4
5
6
7
8
9
10
 doc = Jsoup.connect("...").get();
            String title = doc.title();
            System.out.println("title : " + title);
     
            Elements links = doc.select("a[href]");
            for (Element link : links) {
                
                System.out.println("\nlink : " + link.attr("href"));
                System.out.println("text : " + link.text());
             }
Спасибо!!!
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
17.06.2014, 17:30
Ответы с готовыми решениями:

JSoup парсер
Если кто-нть работал с JSoup, пожскажите как извлечь текст, лежащий под тегами div style=&quot;word-wrap:break-word !important;&quot;. ...

Jsoup
Всем привет решил распарсить сайт с курсами валютами столкнулся с проблемой. Паршу тег со всеми банками и курсами валют и заношу в массив...

Jsoup и авторизация
Пытаюсь авторизоваться на сайте программно. Например если взять quizful.net. Форма на странице вот такая: &lt;form...

5
11 / 11 / 6
Регистрация: 08.06.2012
Сообщений: 28
17.06.2014, 20:15
Никогда не использовал JSOUP, но ваш вопрос больше похож на простую работу со строками.
Используйте String.contains() или прогоняйте через регулярное выражение String.matches()
1
0 / 0 / 0
Регистрация: 22.05.2014
Сообщений: 53
17.06.2014, 23:00  [ТС]
Я в нем более мене разобрался, но работает не так как я хочу, хз, может не правильно делаю...
в вообще мне нужно вытащить
HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
<div class="preview"> 
 <div class="plash"> 
  <div class="info_wrap"> 
  </div> 
 </div> 
 <div class="smoll_year"> 
  <a href="эту не надо" class="fast_search" rel="year1" rev="2014" data-href="tvrip">Этот текст не надо</a> 
 </div> 
 <div class="smoll_janr"> 
  <a href="эту не надо" class="fast_search" data-href="tvrip" rel="janrs[]" rev="548"> Надо этот текст </a> 
 </div> 
 <a href="эту ссылку"> <img alt="" src="эту ссылку" /> </a> 
</div>
Вытаскивает все, но мне это не надо, как отфильтровать не знаю.
Может есть какие мысли?

А вообще какие Вы еще знаете парсеры, желательно по проще в использовании

Добавлено через 2 часа 22 минуты
Спасибо, во всем разобрался)
0
 Аватар для Артём121
66 / 65 / 13
Регистрация: 15.11.2010
Сообщений: 396
Записей в блоге: 1
19.06.2014, 00:17
Если разобрались, то расскажите всем.
0
0 / 0 / 0
Регистрация: 22.07.2020
Сообщений: 1
22.07.2020, 21:53
Вам необходимо прописать
Java
1
Elements links = doc.select("div.aaa");
А вообще посетите https://o7planning.org/ru/1039... al#a864736
0
Эксперт Java
3639 / 2971 / 918
Регистрация: 05.07.2013
Сообщений: 14,220
22.07.2020, 22:11
Arhidon, на даты смотри
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
22.07.2020, 22:11
Помогаю со студенческими работами здесь

Парсинг Jsoup
Всем привет. Подскажите как получить первую с цену с помощью Jsoup.

Jsoup redirect
Есть страничка http://edipars.com, так вот если я открываю ее в любом браузере, происходит редирект на...

Парсинг сайта jsoup
Доброго времени суток. Есть сайт с проксями. Нужно спарсить прокси в таком виде: proxy:port Степень_анонимности Стянуть прокси и...

Парсинг html, Jsoup
У меня есть страница логов в формате Профиль/Клан/Действие. Мне нужно вытащить оттуда все ники профилей. Хотел вытащить сначала все теги...

Авторизация вконтакте jsoup
Не могу аторизоваться вконтакте, пишет не удалось войти ,так понимаю что-то делаю не так. public class index { ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru