С Новым годом! Форум программистов, компьютерный форум, киберфорум
PHP: RegExp
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.80/15: Рейтинг темы: голосов - 15, средняя оценка - 4.80
10 / 10 / 3
Регистрация: 01.09.2011
Сообщений: 92

Как составить регулярку вытаскивающую текст из HTML-страницы

03.10.2012, 20:27. Показов 3050. Ответов 12
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Как из html вида:
HTML5
1
<span itemprop="actors"><a href="/name/14033/">Келли Макдоналд</a></span>
с помощью регулярки вытащить Келли Макдоналд, причём цифры 14033 могут меняться. И таких строк с фамилиями несколько.
Подскажите плиз.
Спасибо.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
03.10.2012, 20:27
Ответы с готовыми решениями:

Составить регулярку! взять текст из H1 и H2
Не могу написать две регулярки одна для h1 и другая для h2 вот кусок кода &lt;div class=&quot;title_box&quot; itemprop=&quot;name&quot;&gt; ...

Составить регулярку, выдергивающую текст между тегами
Всем привет! Помогите составить регулярку, выдергивающую текст между тегами пример: &lt;div...

Как перевести текст HTML страницы?
Приложение выполняет парсинг HTML страницы. HTML страница имеет текст, картинки, таблицы и дургое содержание. Язык текста на странице...

12
 Аватар для Vovan-VE
13210 / 6599 / 1041
Регистрация: 10.01.2008
Сообщений: 15,069
03.10.2012, 20:32
PHP
1
2
if (preg_match_all('~<span\\s+itemprop="actors">\\s*<a\\s+href="[^"]*">([^<>]+)</a>\\s*</span>~i', $text, $match))
    print_r($match[1]);
1
10 / 10 / 3
Регистрация: 01.09.2011
Сообщений: 92
04.10.2012, 13:36  [ТС]
Цитата Сообщение от Vovan-VE Посмотреть сообщение
PHP
1
2
if (preg_match_all('~<span\\s+itemprop="actors">\\s*<a\\s+href="[^"]*">([^<>]+)</a>\\s*</span>~i', $text, $match))
    print_r($match[1]);
Блин, как быстро. Спс +1.
Отписал в личку

Добавлено через 16 часов 53 минуты
А вот для этого:
HTML5
1
<tr><td class="type">режиссер</td><td itemprop="director"><a href="/name/724553/" >Марк Эндрюс</a>, <a href="/name/122457/" >Бренда Чэпман</a>, <a href="/name/1118395/" >Стив Пурселл</a></td></tr>
составил
PHP
1
2
3
4
if (preg_match_all('~<tr><td\\s+class="type">режиссер</td><td\\s+itemprop="director">\\s*(<a\\s+href="[^"]*"\\s*>([^<>]+)</a>,*\\s*)+</td></tr>~i', $out, $match)) {
    echo"<pre>";
    print_r($match);
    echo"</pre>";
получаю
HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
<pre>Array
(
    [0] => Array
        (
            [0] => <tr><td class="type">режиссер</td><td itemprop="director"><a href="/name/724553/" >Марк Эндрюс</a>, <a href="/name/122457/" >Бренда Чэпман</a>, <a href="/name/1118395/" >Стив Пурселл</a></td></tr>
        )
 
    [1] => Array
        (
            [0] => <a href="/name/1118395/" >Стив Пурселл</a>
        )
 
    [2] => Array
        (
            [0] => Стив Пурселл
        )
 
)
</pre>
а мне надо просто фамилии в $match[1]
PHP
1
2
3
4
5
6
    [1] => Array
        (
            [0] => Марк Эндрюс
            [1] => Бренда Чэпман
            [2] => Стив Пурселл
        )
где я ошибся подскажите пожалуйста.
Спасибо.
0
 Аватар для Vovan-VE
13210 / 6599 / 1041
Регистрация: 10.01.2008
Сообщений: 15,069
04.10.2012, 14:59
Цитата Сообщение от boomrest Посмотреть сообщение
а мне надо просто фамилии в $match[1]
PHP
1
print_r($match[2]);
0
10 / 10 / 3
Регистрация: 01.09.2011
Сообщений: 92
04.10.2012, 15:22  [ТС]
Стив Пурселл только попадает
0
 Аватар для Vovan-VE
13210 / 6599 / 1041
Регистрация: 10.01.2008
Сообщений: 15,069
04.10.2012, 17:06
Цитата Сообщение от boomrest Посмотреть сообщение
Code
1
(<a\s+href="[^"]*"\s*>([^<>]+)</a>,*\s*)+
Ну правильно, Вы так повторение организовали. В $1 попадает весь список ссылок, а в $2 оказывается текст последней.
Можно отдельным выражением выдернуть содержимое (всех таких) td, а затем уже в нем (в них в цикле) с помощью preg_match_all искать просто ссылку без повторений - найдутся все.
0
10 / 10 / 3
Регистрация: 01.09.2011
Сообщений: 92
04.10.2012, 19:11  [ТС]
Всё равно не понял, можно по-подробнее?
0
 Аватар для Vovan-VE
13210 / 6599 / 1041
Регистрация: 10.01.2008
Сообщений: 15,069
04.10.2012, 19:23
PHP
1
2
3
4
5
6
7
8
9
if (preg_match_all('~<tr><td\\s+class="type">режиссер</td><td\\s+itemprop="director">((?:[^<>]+|<(?!/td>))+)</td></tr>~i', $out, $match)) {
    foreach ($match[1] as $td) {
        if (preg_match_all('~<a\\s+href="[^"]*"\\s*>([^<>]+)</a>~i', $td, $m)) {
            echo"<pre>";
            print_r($m[1]);
            echo"</pre>";
        }
    }
}
0
10 / 10 / 3
Регистрация: 01.09.2011
Сообщений: 92
04.10.2012, 20:14  [ТС]
Так не работает что-то. Состряпал вот что:
PHP
1
2
3
4
5
6
7
8
if (preg_match_all('~<tr><td\\s+class="type">режиссер</td><td\\s+itemprop="director">\\s*(<a\\s+href="[^"]*"\\s*>([^<>]+)</a>,*\\s*)+</td></tr>~i', $out, $match)) {
    $res = $match[0];
}
if (preg_match_all('~<a\\s+href="[^"]*"\\s*>([^"]*)</a>~i', $res[0], $match)) {
    foreach($match[1] as $res) {
        echo $res.", ";
    }
}
так работает. Не знаю, можно так писать вообще?
0
112 / 93 / 15
Регистрация: 03.10.2012
Сообщений: 315
08.10.2012, 13:16
Извините, что вмешиваюсь, но разве DOMDocument [+ XPath] не проще?
0
10 / 10 / 3
Регистрация: 01.09.2011
Сообщений: 92
08.10.2012, 17:04  [ТС]
Цитата Сообщение от r3ntg3n Посмотреть сообщение
...разве DOMDocument [+ XPath] не проще?
Не знаю, не сталкивался с DOM на PHP.
Пример приведите.
0
112 / 93 / 15
Регистрация: 03.10.2012
Сообщений: 315
08.10.2012, 17:21
Ну, например, получение содержимого элемента, который находится по определенному пути:
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
$dom = new DOMDocument('1.0', 'UTF-8');
$dom->loadHTMLFile($link); /* грузим HTML из URL */
$xPath = new DOMXPath($dom);
/**
 * Нужное содержимое лежит по следующему пути
 * div#main => a => div.class => span#stat
 * Достать его можно следующим xpath-запросом
 */
$entries = $xPath->query(".//div[@id='main']/a/div[@class='class']/span[@id='stat']");
/**
 * В результате запроса получаем список элементов
 * Берем, значение первого элемента и достаем
 */
$nodeValue = $entries->item(0)->nodeValue;
Сейчас найду парсинг таблиц, где-то валяется в архивах.
1
10 / 10 / 3
Регистрация: 01.09.2011
Сообщений: 92
08.10.2012, 17:30  [ТС]
Круто, не знал. Буду изучать
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
08.10.2012, 17:30
Помогаю со студенческими работами здесь

Как вывести текст в label из html страницы?
У меня есть html страница. Как считать с нее текст и вывести его в label1? Это у меня получится проверка обновлений игры

Как сохранить текст при обновлении страницы html?
как сохранить текст при обновление страницы html? вот код: &lt;div id=&quot;commentBlock&quot;&gt; &lt;?php $result = mysql_query(&quot;SELECT *...

Как получить текст HTML страницы с компонента Chromium браузер
Привет всем. Подскажите как получить текст HTML страницы с компонента Chromium браузер. Со стандартного компонента всегда так получал ...

Как сделать программу которая сохраняет текст с html страницы?
Здравствуйте! Что такое парсер? Как сделать программу которая сохраняет текст с html страницы?

как составить регулярку?
собсно сабж, как в переменную загнать только то, что в двойных кавычках? $res = 'test&quot;name&quot;test' т.е. что бы было только name


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
13
Ответ Создать тему
Новые блоги и статьи
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её. Последовательность действий:. . .
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru