Форум программистов, компьютерный форум, киберфорум
Java SE (J2SE)
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.76/21: Рейтинг темы: голосов - 21, средняя оценка - 4.76
dmitry_dp

Программа для парсинга HTML страницы

06.11.2011, 15:48. Показов 4034. Ответов 8
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Моя задача состоит в том чтобы я написал программу в которой вводишь URL и она заходит на эту страницу и ищет там ссылки <a href и вытягивает http://google.com потом записывает ссылку эту в файл и в конца у нас в файле есть все ссылки с страницы потом она берет эти ссылки,заходит по ним и ищет в них уже новые ссылки и так в 5 слоев... Выходит некое дерево! Я уже реализовал коннект к сайту и запись всего содержимого в файл контента... моя задача теперь распарсить либо файл, либо сразу входной поток! препод говорил юзать регулярки! Но я не пойму ведь регулярные проверяют на валидность имя пользователя или мыло или адресс а не целый HTML документ, или можно делать поиск по регулярным ? хотя можно с таким успехом подстроку в строке где начало <a href

Кто подскажет как решить проблему ?
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
06.11.2011, 15:48
Ответы с готовыми решениями:

Программа для парсинга резюме с работного сайта
Нужна программа для парсинга резюме с сайта JOB.ru. Буду рад помощи! Описание тех. задания во вложении. И скажите- это вообще реально)))?

Регулярное выражение для парсинга HTML-страницы
&lt;a href=&quot;javascript:&quot; onclick=&quot;openWindow('/public/action/organization/view?organizationId=776721','_blank', 900, 500);return...

Поправьте код для парсинга HTML-страницы
&lt;tr class=&quot;itr&quot;&gt; &lt;td class=&quot;itdh&quot; align=&quot;center&quot;&gt;4&lt;/td&gt; &lt;td class=&quot;itd_lb&quot; width=&quot;33%&quot; nowrap align=&quot;left&quot;&gt; &lt;a...

8
0 / 0 / 0
Регистрация: 22.08.2011
Сообщений: 5
06.11.2011, 19:28
Да можно искать с помощью regexp-ов, точно не знаю как , но с помощью этих классов :

http://download.oracle.com/jav... ttern.html
http://download.oracle.com/jav... tcher.html

Делать примерно так:
Java
1
2
3
4
5
6
7
Pattern p = Pattern.compile("Тут нужный регэксп");
Matcher m = p.matcher("тут контент веб страницы");
 
while (m.find()){
  beginIndex = m.start();
  endIndex = m.end();    
}
метод m.find(); , найдет есть ли в веб странице совпадения с regexp-ом

если метод вернет true, то c помощью методов start, end можно найти начало и конец найденной подстроки, и соотвественно вытащить подстроку к себе.
0
МИР ВАШЕМУ ДОМУ!!!
57 / 58 / 7
Регистрация: 01.04.2009
Сообщений: 890
Записей в блоге: 1
05.11.2014, 23:29
Здравствуйте dmitry_dp вы говорите что уже реализовали коннект и запись в файл.
Не могли бы вы поделиться кодом?
0
любитель покушать
 Аватар для Севак
687 / 641 / 248
Регистрация: 25.09.2011
Сообщений: 1,313
06.11.2014, 01:12
Зачем костыли в виде регэкспов, если есть замечательная либа SOUP? погуглите, с помощью нее можно легко сделать то, что вам необходимо
0
69 / 69 / 39
Регистрация: 22.05.2014
Сообщений: 311
06.11.2014, 03:14
Если не секрет, откуда вы взяли эту задачу?
0
 Аватар для Tsin
1180 / 488 / 188
Регистрация: 30.12.2012
Сообщений: 1,278
Записей в блоге: 2
06.11.2014, 13:55
Внесу свою небольшую лепту: подумайте об использовании библиотеки WebHarvest. Она умеет работать с HTML, как с XML. А, следовательно, можно пользоваться XPath. Как вариант, разумеется.
0
69 / 69 / 39
Регистрация: 22.05.2014
Сообщений: 311
16.11.2014, 03:16
Севак, вы имеете ввиду jsoup http://jsoup.org/ ?
0
любитель покушать
 Аватар для Севак
687 / 641 / 248
Регистрация: 25.09.2011
Сообщений: 1,313
16.11.2014, 13:56
EdisonMiranda, да, именно!
1
26 / 26 / 3
Регистрация: 10.04.2013
Сообщений: 167
16.11.2014, 22:59
Я что то похожее делал, вот ссылка на bitbucket, посмотри как выбирал ссылки и т.д
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
16.11.2014, 22:59
Помогаю со студенческими работами здесь

Дешифровать html код страницы google translate для дальнейшего парсинга
Можно ли как-то дешифровать html код страницы google translate для дальнейшего парсинга? &lt;!DOCTYPE...

Программа для парсинга HTML кода
Изучал с++, теперь хочу создавать приложения с интерфейсом. Выбрал windows forms, но не могу понять кое-что. Допустим я хочу спарсить HTML...

Скрипт парсинга html-страницы на PowerShell
Есть некий скрипт, который парсит веб-страницу и выводит на экран содержимое таблицы (список сотрудников с их контактными данными): $uri...

Скрипт парсинга html-страницы на PowerShell
Здравствуйте, уважаемые знатоки! Очень прошу Вас помочь. Задача такая: необходимо написать скрипт (на PowerShell), который будет парсить...

Написать простой скрипт парсинга 1 цифры с html страницы
Господа, доброго времени суток! Очень нуждаюсь в вашей помощи, а именно: Передо мной стоит следующая задача. Есть много web...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
влияние грибов на сукцессию
anaschu 26.01.2026
Бифуркационные изменения массы гриба происходят тогда, когда мы уменьшаем массу компоста в 10 раз, а скорость прироста биомассы уменьшаем в три раза. Скорость прироста биомассы может уменьшаться за. . .
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip" Извлеките архив и вы увидите. . .
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д. Сборка примера Скачайте. . .
Использование SDL3-callbacks вместо функции main() на Android, Desktop и WebAssembly
8Observer8 24.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
моя боль
iceja 24.01.2026
Выложила интерполяцию кубическими сплайнами www. iceja. net REST сервисы временно не работают, только через Web. Написала за 56 рабочих часов этот сайт с нуля. При помощи perplexity. ai PRO , при. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru