Форум программистов, компьютерный форум, киберфорум
Java: Сети
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.52/29: Рейтинг темы: голосов - 29, средняя оценка - 4.52
4 / 4 / 1
Регистрация: 15.05.2012
Сообщений: 63

Парсинг ссылок с сайта, и добавление их в ArrayList

09.03.2013, 20:16. Показов 5471. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
привет всем.
написал метод, который выдирает с сайта все ссылки, которые мне нужны и добавляет их в ArrayList
Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
public static void LinksArray(String s) throws IOException
        {
  
                Document document = Jsoup.connect(s).get();
                Elements links = document.select("a");
                for (Element link : links)
                {
                       urls.add(link.attr("href"));
 
                }
                
                for (int i = 0; i < urls.size(); i++)
                {
                    if (urls.get(i).startsWith("/movie.asp?id="))
                    {
                        urls2.add("http://site.ru" + urls.get(i).toString());
                        
                    }
                }
                
                for (int i = 0; i < urls2.size(); i++)
                {
                   System.out.println(urls2.get(i).toString());
                }
                
      
              
        }
но проблема в том, что в начале кода html страницы есть н-ное количество ссылок, которые мне не нужны.
после парсинга в ArrayList следующее:
а должно быть:
так вот, у меня также есть метод, который загружает на компьютер и парсит эту же страницу.
если конкретней, то он удаляет ту часть, где встречаются эти ссылки.
было бы отлично спарсить ссылки уже с измененного html файла, который лежит у меня в директории.
пробовал делать так:
Java
1
2
3
4
5
6
7
Document document = Jsoup.parse("file.html");
                Elements links = document.select("a");
                for (Element link : links)
                {
                       urls.add(link.attr("href"));
 
                }
но почему-то не работает.
кто нибудь может подсказать, как это сделать?
заранее спасибо!

UPD: да, забыл сказать, каждый день количество ссылок вначале страницы меняется, так что вручную их удалить не вариант.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
09.03.2013, 20:16
Ответы с готовыми решениями:

Парсинг ссылок сайта
Здравствуйте. Хочу получить из страницы сайта все ссылки на его новости (их 10 штук). Пишу такой код: procedure...

Парсинг ссылок с сайта
Собственно как зайти на данный сайт программно? https://csgojackpot.com/ А потом спарсить в List&lt;string&gt; ссылки на всех...

Парсинг ссылок сайта
есть парсер для сайта который берет вакансии с сайта http://www.work.ua/jobs/?category=1 каким образом можна выдернуть ссылку на...

4
 Аватар для exiqa
487 / 333 / 71
Регистрация: 24.12.2011
Сообщений: 591
09.03.2013, 21:33
чтобы парсить html файл, используйте метод
Java
1
Jsoup.parse(File in, String charsetName)
или
Java
1
Jsoup.parse(File in, String charsetName, String baseUri)
а по первому вопросу... не знаю, может стоит добавлять ссылки в Set, чтобы избежать дублирования?
0
4 / 4 / 1
Регистрация: 15.05.2012
Сообщений: 63
09.03.2013, 21:46  [ТС]
Java
1
Document document = Jsoup.parse("/home/****/file.html", "UTF-8");
почему-то не работает.
ничего не добавляет в arraylist.
0
 Аватар для exiqa
487 / 333 / 71
Регистрация: 24.12.2011
Сообщений: 591
09.03.2013, 23:43
Java
1
2
File file = new File("file.html");
Document doc = Jsoup.parse(file, "UTF-8");
0
4 / 4 / 1
Регистрация: 15.05.2012
Сообщений: 63
10.03.2013, 08:36  [ТС]
большое спасибо, как раз то, что надо.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
10.03.2013, 08:36
Помогаю со студенческими работами здесь

Парсинг ссылок с сайта orgpage
Здравствуйте. Я новичок, учусь парсить. Как на сайте http://www.orgpage.ru/rossiya/krossovki/ взять ссылки? Как я понимаю, они подгружаются...

Вывод структуры сайта. Парсинг ссылок
Доброго времени суток, уважаемые программисты. ---------- Я столкнулся с такой проблемой: необходимо написать программу, которая...

Добавление ссылок на картинки без ссылок
Здравствуйте. На форуме вставляются картинки любого размера, и что бы они не растягивались за оверлей они автоматически ставятся в размер...

Есть ли такая биржа ссылок, где можно размещать место для ссылок вне видимости страницы сайта
Например сдвинуть абсолютом размещаемые на сайте ссылки, вверх, вниз, вправо или влево?

Парсинг ссылок
Как с это сайта возможно получить все ссылки в txt файл? Ссылка URL нужны вида https://prozorro.gov.ua/tender/UA-2017-02-21-002297-c/...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru