Форум программистов, компьютерный форум, киберфорум
PHP
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.80/5: Рейтинг темы: голосов - 5, средняя оценка - 4.80
5 / 6 / 3
Регистрация: 02.02.2014
Сообщений: 171

Парсинг html

11.09.2021, 15:07. Показов 1118. Ответов 2

Студворк — интернет-сервис помощи студентам
Доброго времени всем!
Я хотел спарсить html файл с помощью Xpath. У меня получилось спарсить только текст.
Как можно спарсить текст, чтобы был виден не только текст, но и теги html?
Или может есть метод в котором можно узнать все теги документа?
Просто в самом html файле много стилей и скриптов, что сложно выстроить иерархию документа.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
11.09.2021, 15:07
Ответы с готовыми решениями:

Парсинг HTML
Подскажите как можно распарсить все значения по указаному полю например здесь указано <div...

html парсинг
Здравствуйте, товарищи программисты! Столкнулся с проблемой парсинга html - документа. Сами мы биологи и в web-технологиях не силён. ...

Парсинг страницы html
Есть некая html страница. Я получаю значение одного из атрибутов какого-то элемента (id,name,class) вне зависимости это div, p или table....

2
168 / 124 / 42
Регистрация: 25.10.2019
Сообщений: 476
13.05.2022, 22:26
код
PHP
1
2
3
<?php
$homepage = file_get_contents('http://www.example.com/');
print_r(htmlspecialchars($homepage));
на выходе даст
HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
 
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>    
</head>
 
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
0
34 / 11 / 6
Регистрация: 09.01.2018
Сообщений: 189
15.05.2022, 13:57
Если HTML валидный XML (то есть является XHTML) то помогут библиотеки для работы с DOM XML. Например DOMDocument или SimpleXML, которые есть по-умолчанию в PHP если подключено расширение libxml

https://www.php.net/manual/ru/refs.xml.php
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
15.05.2022, 13:57
Помогаю со студенческими работами здесь

Парсинг HTML таблиц
Здравствуйте! Пытаюсь парсить с помощью Simple HTML DOM Parser Есть HTML код такого вида: &lt;table width=&quot;800&quot;...

Парсинг Html страницы
Доброго времени суток. нужно розпарсить хтмль страницу с помощью регулярных выражений нужно без PDO , DOM никак не могу найти ошыбку в...

Парсинг HTML-таблицы
есть самая простая доска объявлений. В хтмле идут формы, и обработчик заносит в базу содержимое формы и выводит в хтмле в виде таблицы ...

Парсинг html-кода
Всем добрый день! Нужна помощь в написании парсера определенного текста. Вначале указывается список url для парсинга. После чего нужно...

Парсинг html страницы
Всем привет! Помоги пожалуйста с регулярными выражениями! Представим что есть html страница, на которой содержится информация которую...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Символьное дифференцирование
igorrr37 13.02.2026
/ * Логарифм записывается как: (x-2)log(x^2+2) - означает логарифм (x^2+2) по основанию (x-2). Унарный минус обозначается как ! */ #include <iostream> #include <stack> #include <cctype>. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru