Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.63/8: Рейтинг темы: голосов - 8, средняя оценка - 4.63
0 / 0 / 0
Регистрация: 18.10.2017
Сообщений: 13

Как спарсить HTML страницу?

23.03.2018, 13:17. Показов 1855. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Вот скриншот

Нужно получить "Производитель" и "Toyota", хелп
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
23.03.2018, 13:17
Ответы с готовыми решениями:

Как спарсить значение из html комментария
Комментарий примерно такого вида "<!--19282<!><!>0<!>6704<!>2<!>429046155055<!>0" подскажите как "вытащить" из него строку с...

Как спарсить div class из html
<div class="_6a _6b"> <div class="_21zr _50f5 _50f7"> == $0 <a href="http://localhost.ru/">Нужный мне текст</a> ...

Как спарсить скрытую информацию со страницы html?
Пишу парсер на C# VS 2017 используя Browser.FindElements(); Но не получается достать скрытую Нужную информацию со страницы (она не...

6
Unnamed
 Аватар для kingzfate
160 / 158 / 81
Регистрация: 09.06.2011
Сообщений: 852
23.03.2018, 13:20
ktooto, загружаете текст, находите индекс на котором находится p-label, забираете Производителя, от него уже идете дальше пока не встретите ">" и берете до "<", Тойоту, профит
0
0 / 0 / 0
Регистрация: 18.10.2017
Сообщений: 13
23.03.2018, 13:25  [ТС]
Цитата Сообщение от kingzfate Посмотреть сообщение
ktooto, загружаете текст, находите индекс на котором находится p-label, забираете Производителя, от него уже идете дальше пока не встретите ">" и берете до "<", Тойоту, профит
А можно пример какой-нибудь?

Добавлено через 1 минуту
УПД: надо получить не все, а некоторые из них
0
 Аватар для usershen
5 / 5 / 5
Регистрация: 14.03.2018
Сообщений: 28
23.03.2018, 14:02
ktooto,
using HtmlAgilityPack;
Правый клик в Обозревателе решений по Ссылки - управление пакетами NuGet, там найти HtmlAgilityPack и установить.
Затем:
C#
1
2
3
4
5
url = "сайт, который парсить";
HtmlDocument doc = new HtmlDocument();
WebClient webClient = new WebClient();
string html = webClient.DownloadString(url);
doc.LoadHtml(html);
теперь загрузили сайт в doc, с ним и работаем. Там получаем чистый хтмл, в нем можно найти что-то, как текст и субстрингами вырезать либо использоваться регулярными выражениями. но давайте делать поэтапно, напишите, где застряли

вот так, например, я забираю название фильма с кинопоиска:

C#
1
2
3
4
if (html.Contains("moviename-big"))
                        { 
                            nazv1 = html.Substring("<h1 class=\"moviename-big\" itemprop=\"name\">", "</h1>");
                        }
0
 Аватар для edward_freedom
1569 / 1448 / 303
Регистрация: 01.10.2011
Сообщений: 2,636
23.03.2018, 14:16
usershen,Это очень странно, ты скачал специальную библиотеку для парсинга, но продолжаешь парсить substring. Зачем тогда HtmlAgilityPack качал?
0
 Аватар для usershen
5 / 5 / 5
Регистрация: 14.03.2018
Сообщений: 28
23.03.2018, 14:41
edward_freedom, HtmlDocument doc = new HtmlDocument(); не заработает. И HtmlAgilityPack я еще для нодов использовал, просто в примере не привёл
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18298 / 14222 / 5368
Регистрация: 17.03.2014
Сообщений: 28,898
Записей в блоге: 1
23.03.2018, 14:52
Цитата Сообщение от usershen Посмотреть сообщение
HtmlDocument doc = new HtmlDocument(); не заработает.
При чем тут это? У тебя спрашивают зачем использовать строковые операции когда в распоряжении уже есть специализированная библиотека.

Цитата Сообщение от usershen Посмотреть сообщение
вот так, например, я забираю название фильма с кинопоиска:
C#
1
2
3
4
if (html.Contains("moviename-big"))
{ 
    nazv1 = html.Substring("<h1 class=\"moviename-big\" itemprop=\"name\">", "</h1>");
}
Почему не так?
C#
1
2
3
4
5
var node = doc.DocumentNode.SelectSingleNode("//h1[@class='moviename-big' and @itemprop='name']");
if (node != null)
{
    nazv1 = node.InnerText;
}
2
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
23.03.2018, 14:52
Помогаю со студенческими работами здесь

Как получить html код страницы и спарсить значение?
подскажите как получить html код страницы и спарсить значение Вот часть html &lt;script type=&quot;text/javascript&quot;&gt; ...

Как спарсить строку HTML кода с помощью регулярных выражений
Имеется вот такой HTML код: &lt;a class=&quot;number-figures float-left phone-float-none&quot; href=&quot;http://test1.ru/lol&quot;&gt;&lt;b...

Каким методом можно спарсить такую страницу?
Вот страничка - https://live.fonbet.com/?locale=ru#1

Спарсить html
Как можно спарсить html документ, уже довольно долго мучаюсь с регулярками string match = Regex.Match(outdata,...

Спарсить код HTML
Всем привет. Подскажите, как спарсить html код? Спасибо за ответы.


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru