Форум программистов, компьютерный форум, киберфорум
Delphi: Сети
Войти
Регистрация
Восстановить пароль
 
Рейтинг 4.75/4: Рейтинг темы: голосов - 4, средняя оценка - 4.75
1 / 1 / 1
Регистрация: 27.05.2013
Сообщений: 65
1

Парсер html

01.11.2014, 13:29. Просмотров 678. Ответов 7
Метки нет (Все метки)

Ребят пишу парсер, парсю через регулярки, но есть проблема - не могу составить регулярку на код такого вида:

HTML5
1
2
3
4
5
<div class="classname">
                                    <a href="http://test.com/"
   data-name="text"
   title="privetprivet">
    privetprivet</a>

Как видите тег <a> разделён на 3 строчки. \n не помогает. Мне нужно выдернуть слово privetprivet из title=" либо privetprivet между тегом <a></a>
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
01.11.2014, 13:29
Ответы с готовыми решениями:

Парсер страницы HTML
Добрый вечер в чём может быть ошибка кто подскажет? unit Unit1; interface uses Windows,...

Простой парсер, не могу получить href из html (DOM)
Всем привет. Помогите написать простенький парсер, не могу получить href в финале. Выдергивает все...

Парсер HTML на C++
Помогите найти библиотеку для синтаксического анализа HTML на C++ или Си. Желательно, работающую с...

Парсер html на c++
В консольном приложении хочу чтобы для конвертации валют использовались актуальные данные с сайта....

7
2645 / 2268 / 278
Регистрация: 24.12.2010
Сообщений: 13,725
01.11.2014, 13:40 2
А причем тут "Сети" ?
0
1 / 1 / 1
Регистрация: 27.05.2013
Сообщений: 65
01.11.2014, 14:06  [ТС] 3
Извиняюсь, если попал не в тот раздел, просто увидел тут про парсеры темы, решил сюда выложить.
0
2645 / 2268 / 278
Регистрация: 24.12.2010
Сообщений: 13,725
01.11.2014, 14:09 4
Что мешает перед разбором гипертекста выкинуть из него все символы (или последовательности символов) переноса строки ?
0
1 / 1 / 1
Регистрация: 27.05.2013
Сообщений: 65
01.11.2014, 14:13  [ТС] 5
Проблема в том, что хтмл документ на выходе достаточно большой, более 6000 строк. И будет нелогично каждый парс вот так вот разбирать. В принцепе я пробовал сделать так - получаю по idhttp исходный код, заношу его в текстовый файл, потом построчно Trim'ом обрабатываю файл. получается 2 файл уже без пробелов лишних. А вот как, где надо, убрать перенос строк я не знаю... То что я сделал был некий тест, и использовать такое - плохо)))
0
2645 / 2268 / 278
Регистрация: 24.12.2010
Сообщений: 13,725
01.11.2014, 14:16 6
Цитата Сообщение от drka Посмотреть сообщение
как
Например, StringReplace

Цитата Сообщение от drka Посмотреть сообщение
где
Что значит "где" ? В тексте загруженного документа, где же еще ? Ты же документ парсишь)
0
1 / 1 / 1
Регистрация: 27.05.2013
Сообщений: 65
01.11.2014, 14:18  [ТС] 7
как, где надо,
Извиняюсь, первое сообщение было без запятых
0
834 / 729 / 342
Регистрация: 22.09.2012
Сообщений: 5,034
02.11.2014, 19:03 8
Цитата Сообщение от drka Посмотреть сообщение
Мне нужно выдернуть слово privetprivet из title="
Тебе такой шаблон подойдет:
title="(.*?)"
1
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
02.11.2014, 19:03

Заказываю контрольные, курсовые, дипломные и любые другие студенческие работы здесь.

HTML парсер
Доброе время суток. Проблема такова: Читаю с помощью WebClient хтмл, сайта. Нахожу тайтл с...

Парсер HTML
Здравствуйте! Нигде не могу найти парсера HTML на Си/С++, помогите кто чем может! На PHP все...

Html парсер на QT
Добрый день! Я понимаю, что мой вопрос очень абстрактен. Я хочу реализовать програмку на Qt,...

html Парсер
Добрый вечера! Посоветуйте пожалуйста какой нибудь html парсер на C#. Прогуглил, ничего не нашел....


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2020, vBulletin Solutions, Inc.