Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.59/41: Рейтинг темы: голосов - 41, средняя оценка - 4.59
 Аватар для Zuzik
298 / 256 / 57
Регистрация: 11.06.2012
Сообщений: 1,557

Парсинг сайтов. Поиск всех ссылок на странице

12.04.2014, 01:32. Показов 7549. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Суть вопроса думаю ясна. Есть интернет страница, с нее нужно выдрать ссылки. Решил воспользоваться lxml.html. Делаю аналогично примеру
Python
1
2
3
4
import lxml.html
html = lxml.html.document_fromstring(doc)
for element, attribute, link, pos in html.iterlinks():
#дальше какой нибудь код
Но в чем проблема - в ссылке мне нужно то как она отображается на странице т.е. из <a href="адрес">какой то текст</a> мне нужно взять и "адрес" и "какой то текст". Данным способом получилось достать только адрес. Подскажите как достать и текст. Заранее спасибо.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
12.04.2014, 01:32
Ответы с готовыми решениями:

Поиск всех ссылок на странице
Добрый день всем. Необходимо регулярное выражение для поиска всех ссылок на странице.

Поиск всех внешних ссылок на HTML странице без повторения
Код страницы получил,но не могу написать регулярку которая будет искать все внешние ссілки без повторения(моя регулярка достает все что...

При нажатии определенных ссылок или области на странице сайтов - окно браузера становится неактивным
При нажатии на определенные ссылки или области на странице сайтов - окно браузера становится неактивным и в эту область становится вообще...

1
224 / 209 / 63
Регистрация: 26.05.2011
Сообщений: 363
12.04.2014, 10:42
Python
1
2
3
4
import lxml.html
html = lxml.html.document_fromstring(doc)
for a in html.iter("a"):
    print(a.text, a.get("href"))
2
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
12.04.2014, 10:42
Помогаю со студенческими работами здесь

Парсинг всех ссылок в массив
Помогите примерчик сообразить, желательно с выводом n одного из элементов массива все ссылки в формате: &lt;a href=&quot;ССЫЛКА&quot;...

Парсинг всех ссылок регулярным выражением
Добрый вечер. Такая проблема: мне нужно спарсить все ссылки с сайта www.rt.com используя регулярные выражения. Почитал документацию,...

Поиск ссылок на странице
Добрый день, помогите,пожалуйста, с реализацией задачи: есть три фрейма, по нажатию клавиши в 1 фрейме, все ссылки со страницы 2 фрейма...

Парсинг html - Вывод всех ссылок с их текстовыми полями
Доброго времени суток, уважаемые форумчане! Недавно встал вопрос о написании парсера для html. Задача парсинга: вывод всех ссылок с их...

Поиск на WEB странице ссылок, к клики по ней
Коллеги добрый день! Как осуществить ЗАДУМАННОЕ Пример...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru