Вытянуть содержимое между тегов title

@many7778 · Регистрация: 30.08.2013

Author24 — интернет-сервис помощи студентам

как с помощью регулярного выражение содержимое <title> </ title>, есть текст из него нужно вытинуть то что находиться между <title> </ title>, желательно с помощью рег. выраж preg_grep(). Помогите пожайлуста.

@Dealiss · 30.08.2013, 14:53

Вот так можно:

PHP

1
2
3

$text = '<title> something text was here... </title>';
if(preg_match("~<title>(.*)</title>~",$text,$preg))
    print_r($preg);

@many7778 · 30.08.2013, 17:25 **[ТС]**

Большое вам спасибо.

NEbO · 30.08.2013, 17:59

добавьте сначала </title> куда-нибудь в конец html-кода... посмотрите, что получится. а потом добавьте знак вопроса в подмаску,вот так вот:

Код

~<title>(.*?)</title>~

@Dealiss · 30.08.2013, 18:31

NEbO, если не указать ? тогда будет 1 вхождение, а если со ? тогда 0 или больше чем 1 вхождение?

NEbO · 30.08.2013, 18:37

Dealiss, попробуй сделать как я сказал

добавь в конец хтмл кода еще один закрывающий тег </title>. для достоверности, можешь добавить еще и открывающий, и даже написать что-то между ними

знак вопроса в данном случае относится к квантификатору *, и играет совершенно другую роль...

@Dealiss · 30.08.2013, 18:47

NEbO, \n - без ? учитываются, с ? не учитываются. Верно?

NEbO · 30.08.2013, 18:52

я конечно соглашусь с тем, что в ряде задач сойдет и ".*", просто внизу могут быть строковые литералы в js-е, комментарии, и прочая билиберда... поэтому как-то ".*?" подойдет гораздо чаще...
впрочем, можно добиться такого же поведения и без знака вопроса, а с помощью модификатора... ладно, сразу дам ответ, под спойлером. но лучше попробовать сделать самостоятельно, весьма неплохой пример, а эту тему как раз не очень хорошо понимают.

Кликните здесь для просмотра всего текста

дело в жадности (greedy) квантификатора. если квантификатор жадный, то дойдя до ".*", сопоставлятор прыгнет в конец и пойдет в начало до первого совпадения. так он захватит максимально возможную часть. т.к. он совпадет со всеми символами начиная от первого <title>, заканчивая последним </title>. Если же применить модификатор U (ungreedy), или (?U) засунуть в регулярку до ".*", а равно написать ".*?" (когда знак вопроса стоит после квантификатора, он инвертирует жадность), дойдя до ".*" он никуда прыгать не будет, а пойдет себе спокойно дальше -- пока не встретит первый попавшийся </title>

Добавлено через 2 минуты

Сообщение от Dealiss

\n - без ? учитываются, с ? не учитываются.

кстати да, если в тайтле может быть символ перевода строки, нужно применить модификатор s (вполне логичное сокращение от DOT_ALL, ага. и тем не менее, это именно оно)

@nubo · 31.08.2013, 15:25

Стопроцентный, но жутко затратный способ через DOM

PHP

<?php
 
    $URI = 'https://www.google.ru';
    $title = 'Not found';
    $DOM = new doMDocument();
 
    if(@$DOM -> loadHTMLFile($URI))
    {
        $Xpath = new doMXPath($DOM);
        $title = $DOM -> getElementsByTagName('title') -> item(0) -> nodeValue;
    }
    
    echo $title;

NEbO · 31.08.2013, 15:49

Сообщение от nubo

Стопроцентный

ну помимо того, что он жутко затратный, DOMDocument, если не ошибаюсь, парсит X(HT)?ML, а не HTML. и если где-то в боди будут списки аля

HTML5

<ul>
<li>...
<li>...
</ul>

(без закрывающих тегов), или атрибуты будут без кавычек (что также является валидным в html-е в некоторых случаях), итп приколы, то вам не выдернуть тайтл таким образом

Разумеется, если предполагается какой-то серьезный парсинг всего документа, а не только тайтла у страницы, то да, несомненно следует пользоваться более подходящими вещами, и я не раз об этом уже упоминал в этом разделе. Но конкретно в задаче парсинга тайтла (который, кроме всего прочего, не может содержать вложенных элементов, если не ошибаюсь) применять DOMDocument -- все равно что избавляться от комаров с помощью танка

@nubo · 31.08.2013, 15:58

Секундочку. Читаем вопрос топикстартера:

есть текст из него нужно вытинуть то что находиться между <title> </title>

Я понимаю про танки, но все же это 100% решение. )))
Вобщем то это так, для общего развития. Понятно, что ни кто в здравом уме для парсинга это применять не будет.

NEbO · 31.08.2013, 16:19

Сообщение от nubo

есть текст из него нужно вытинуть то что находиться между <title> </title>

если подходить к этому вопросу формально, то вы неправы в квадрате: кто вам вообще сказал, что там x?html документ?

может это вообще какая-то бинарная последовательность, разделенная вот такими вот штуками типа тегов.

Сообщение от nubo

но все же это 100% решение.

еще раз говорю, что даже для html документа это не так

регулярное выражение в этой задаче покрывает бОльшее множество классов входных данных, нежели КС-парсеры. x?html может быть вообще невалидным, например, но содержать <title> ... </title>, а задача о валидности тут не стояла.

вообщем, не вижу смысла продолжать этот спор, просто не непонятно, зачем после решения задачи предлагать худшее, не всегда работающее и утверждать, что оно чем-то лучше. какое-то искажение фактов, тем более что вы сами признались, что

Сообщение от nubo

Понятно, что ни кто в здравом уме для парсинга это применять не будет.

Не по теме:

лучше бы привели пример как подключить и использовать в пхп что-то новое и интересное. о DOMDocument-е то и так все знают, кому надо, а новичок запутается. а вот например, как использовать недавно вышедшую библиотеку https://github.com/google/gumbo-parser в пхп -- вот это было бы интересно:)

@nubo 113 / 70 / 2 Регистрация: 31.07.2010 Сообщений: 337
	31.08.2013, 15:58	11
	Секундочку. Читаем вопрос топикстартера: есть текст из него нужно вытинуть то что находиться между <title> </title> Я понимаю про танки, но все же это 100% решение. ))) Вобщем то это так, для общего развития. Понятно, что ни кто в здравом уме для парсинга это применять не будет. 0

NEbO 601 / 468 / 73 Регистрация: 22.01.2009 Сообщений: 1,180 Записей в блоге: 1
	31.08.2013, 16:19	12
	Сообщение от nubo есть текст из него нужно вытинуть то что находиться между <title> </title> если подходить к этому вопросу формально, то вы неправы в квадрате: кто вам вообще сказал, что там x?html документ? может это вообще какая-то бинарная последовательность, разделенная вот такими вот штуками типа тегов. Сообщение от nubo но все же это 100% решение. еще раз говорю, что даже для html документа это не так регулярное выражение в этой задаче покрывает бОльшее множество классов входных данных, нежели КС-парсеры. x?html может быть вообще невалидным, например, но содержать <title> ... </title>, а задача о валидности тут не стояла. вообщем, не вижу смысла продолжать этот спор, просто не непонятно, зачем после решения задачи предлагать худшее, не всегда работающее и утверждать, что оно чем-то лучше. какое-то искажение фактов, тем более что вы сами признались, что Сообщение от nubo Понятно, что ни кто в здравом уме для парсинга это применять не будет. Не по теме: лучше бы привели пример как подключить и использовать в пхп что-то новое и интересное. о DOMDocument-е то и так все знают, кому надо, а новичок запутается. а вот например, как использовать недавно вышедшую библиотеку https://github.com/google/gumbo-parser в пхп -- вот это было бы интересно:) 0

@many7778 0 / 0 / 0 Регистрация: 30.08.2013 Сообщений: 3
		1
	Вытянуть содержимое между тегов title 30.08.2013, 12:18. Показов 23232. Ответов 11 Метки нет (Все метки) как с помощью регулярного выражение содержимое <title> </ title>, есть текст из него нужно вытинуть то что находиться между <title> </ title>, желательно с помощью рег. выраж preg_grep(). Помогите пожайлуста. 0

@many7778 0 / 0 / 0 Регистрация: 30.08.2013 Сообщений: 3
	30.08.2013, 17:25 [ТС]	3
	Большое вам спасибо. 0

NEbO 601 / 468 / 73 Регистрация: 22.01.2009 Сообщений: 1,180 Записей в блоге: 1
	30.08.2013, 17:59	4
	добавьте сначала </title> куда-нибудь в конец html-кода... посмотрите, что получится. а потом добавьте знак вопроса в подмаску,вот так вот: Код ~<title>(.*?)</title>~ 0

@Dealiss 296 / 284 / 84 Регистрация: 10.05.2013 Сообщений: 920
	30.08.2013, 18:31	5
	NEbO, если не указать ? тогда будет 1 вхождение, а если со ? тогда 0 или больше чем 1 вхождение? 0

NEbO 601 / 468 / 73 Регистрация: 22.01.2009 Сообщений: 1,180 Записей в блоге: 1
	30.08.2013, 18:37	6
	Dealiss, попробуй сделать как я сказал добавь в конец хтмл кода еще один закрывающий тег </title>. для достоверности, можешь добавить еще и открывающий, и даже написать что-то между ними знак вопроса в данном случае относится к квантификатору *, и играет совершенно другую роль... 0

@Dealiss 296 / 284 / 84 Регистрация: 10.05.2013 Сообщений: 920
	30.08.2013, 18:47	7
	NEbO, \n - без ? учитываются, с ? не учитываются. Верно? 0

NEbO 601 / 468 / 73 Регистрация: 22.01.2009 Сообщений: 1,180 Записей в блоге: 1
	30.08.2013, 18:52	8
	я конечно соглашусь с тем, что в ряде задач сойдет и ".", просто внизу могут быть строковые литералы в js-е, комментарии, и прочая билиберда... поэтому как-то ".?" подойдет гораздо чаще... впрочем, можно добиться такого же поведения и без знака вопроса, а с помощью модификатора... ладно, сразу дам ответ, под спойлером. но лучше попробовать сделать самостоятельно, весьма неплохой пример, а эту тему как раз не очень хорошо понимают. Кликните здесь для просмотра всего текста дело в жадности (greedy) квантификатора. если квантификатор жадный, то дойдя до ".", сопоставлятор прыгнет в конец и пойдет в начало до первого совпадения. так он захватит максимально возможную часть. т.к. он совпадет со всеми символами начиная от первого <title>, заканчивая последним </title>. Если же применить модификатор U (ungreedy), или (?U) засунуть в регулярку до ".", а равно написать ".?" (когда знак вопроса стоит после квантификатора, он инвертирует жадность), дойдя до "." он никуда прыгать не будет, а пойдет себе спокойно дальше -- пока не встретит первый попавшийся </title> Добавлено через 2 минуты Сообщение от Dealiss \n - без ? учитываются, с ? не учитываются. кстати да, если в тайтле может быть символ перевода строки, нужно применить модификатор s (вполне логичное сокращение от DOT_ALL, ага. и тем не менее, это именно оно) 1

Опции темы