|
dmitry_dp
|
|
Программа для парсинга HTML страницы06.11.2011, 15:48. Показов 4034. Ответов 8
Метки нет (Все метки)
Моя задача состоит в том чтобы я написал программу в которой вводишь URL и она заходит на эту страницу и ищет там ссылки <a href и вытягивает http://google.com потом записывает ссылку эту в файл и в конца у нас в файле есть все ссылки с страницы потом она берет эти ссылки,заходит по ним и ищет в них уже новые ссылки и так в 5 слоев... Выходит некое дерево! Я уже реализовал коннект к сайту и запись всего содержимого в файл контента... моя задача теперь распарсить либо файл, либо сразу входной поток! препод говорил юзать регулярки! Но я не пойму ведь регулярные проверяют на валидность имя пользователя или мыло или адресс а не целый HTML документ, или можно делать поиск по регулярным ? хотя можно с таким успехом подстроку в строке где начало <a href
![]() Кто подскажет как решить проблему ? |
|
| 06.11.2011, 15:48 | |
|
Ответы с готовыми решениями:
8
Программа для парсинга резюме с работного сайта Регулярное выражение для парсинга HTML-страницы Поправьте код для парсинга HTML-страницы |
|
0 / 0 / 0
Регистрация: 22.08.2011
Сообщений: 5
|
||||||
| 06.11.2011, 19:28 | ||||||
|
Да можно искать с помощью regexp-ов, точно не знаю как , но с помощью этих классов :
http://download.oracle.com/jav... ttern.html http://download.oracle.com/jav... tcher.html Делать примерно так:
если метод вернет true, то c помощью методов start, end можно найти начало и конец найденной подстроки, и соотвественно вытащить подстроку к себе.
0
|
||||||
|
любитель покушать
687 / 641 / 248
Регистрация: 25.09.2011
Сообщений: 1,313
|
|
| 06.11.2014, 01:12 | |
|
Зачем костыли в виде регэкспов, если есть замечательная либа SOUP? погуглите, с помощью нее можно легко сделать то, что вам необходимо
0
|
|
|
69 / 69 / 39
Регистрация: 22.05.2014
Сообщений: 311
|
|
| 06.11.2014, 03:14 | |
|
Если не секрет, откуда вы взяли эту задачу?
0
|
|
|
69 / 69 / 39
Регистрация: 22.05.2014
Сообщений: 311
|
|
| 16.11.2014, 03:16 | |
|
Севак, вы имеете ввиду jsoup http://jsoup.org/ ?
0
|
|
|
любитель покушать
687 / 641 / 248
Регистрация: 25.09.2011
Сообщений: 1,313
|
|
| 16.11.2014, 13:56 | |
|
EdisonMiranda, да, именно!
1
|
|
|
26 / 26 / 3
Регистрация: 10.04.2013
Сообщений: 167
|
|
| 16.11.2014, 22:59 | |
|
Я что то похожее делал, вот ссылка на bitbucket, посмотри как выбирал ссылки и т.д
0
|
|
| 16.11.2014, 22:59 | |
|
Помогаю со студенческими работами здесь
9
Дешифровать html код страницы google translate для дальнейшего парсинга Программа для парсинга HTML кода Скрипт парсинга html-страницы на PowerShell Скрипт парсинга html-страницы на PowerShell
Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога
SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
|
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога
SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
|
влияние грибов на сукцессию
anaschu 26.01.2026
Бифуркационные изменения массы гриба происходят тогда, когда мы уменьшаем массу компоста в 10 раз, а скорость прироста биомассы уменьшаем в три раза. Скорость прироста биомассы может уменьшаться за. . .
|
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога
SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
|
|
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога
Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip"
Извлеките архив и вы увидите. . .
|
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога
Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д.
Сборка примера
Скачайте. . .
|
Использование SDL3-callbacks вместо функции main() на Android, Desktop и WebAssembly
8Observer8 24.01.2026
Содержание блога
Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
|
моя боль
iceja 24.01.2026
Выложила интерполяцию кубическими сплайнами www. iceja. net
REST сервисы временно не работают, только через Web.
Написала за 56 рабочих часов этот сайт с нуля. При помощи perplexity. ai PRO , при. . .
|