Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.53/15: Рейтинг темы: голосов - 15, средняя оценка - 4.53
0 / 0 / 0
Регистрация: 11.12.2017
Сообщений: 9

Не получается распарсить сайт

08.11.2018, 16:47. Показов 3043. Ответов 16

Студворк — интернет-сервис помощи студентам
Добрый день. Пересёрфил форумы в попытках найти помощь в парсинге сайтов. Изначально пользовался Regex, но как выяснилось, то это не лучший способ. После чего стал осваивать (пытаться) AngleSharp. Посмотрел форумы, вроде все было понятно. но на практике не работает...

В данном примере пытаюсь реализовать банальную вещь. Достать все даты публикации постов в теме на форуме. Делаю это через QuerySelectorAll, и заполняющийся List<string> найденными результатами. Делал все по примерам, урокам и т.д. но почему то когда я вывожу на экран размерность List<string>, то он пишет что пустой. Почему это так? с чем связано? как вывести на экран найденное при парсинге?

C#
1
2
3
4
5
6
7
8
9
            string url = "https://ru.pathofexile.com/forum/view-thread/27551";
            var list = new List<string>();
            var parser = new HtmlParser().Parse(url);
            var items = parser.QuerySelectorAll("span.post_date");
            foreach (var item in items)
            {
                list.Add(item.TextContent);
            }
            Console.WriteLine("Кол-во найденных элементов = " + list.Count.ToString());
Я же правильно понимаю что я сначала инициализирую новый парсер, и указываю сайт который надо пропарсить. Затем через QuerySelectorAll ищу все элементы с классом post_date, записываю каждый в new List<string>, и после чего пытаюсь вывести кол-во. И насколько я понимаю, то QuerySelectorAll создает коллекцию из найденых по условиям элементов, а если будет QuerySelector, то результат будет первый найденный элемент удовлетворяющий условиям?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
08.11.2018, 16:47
Ответы с готовыми решениями:

Как распарсить сайт
Пишу программу в сети не разбираюсь.Суть программы: в richTextBox пользователь вводит список сайтов, потом нажимает на button и происходит...

Как распарсить сайт
Привет! Не могу понять как при помощи HttpClient получить, например список чего-либо с сайта. Кто делал, расскажите плз. Или укажите куда...

Распарсить сайт с объявлениями
Доброго времени суток! Встала задача написать парсер на c#. Есть сайт с объявлениями, необходимо загрузить страницу, заполнить поле...

16
 Аватар для PoPsa85
814 / 561 / 240
Регистрация: 01.07.2018
Сообщений: 1,818
08.11.2018, 17:23
mr_mark_ru, Не знаю как AngleSharp, в HtmlAgilityPack это выглядит вот так:
C#
1
2
3
4
5
6
7
8
9
10
            WebClient client = new WebClient();
            client.Encoding = Encoding.UTF8;
            string html = client.DownloadString("https://ru.pathofexile.com/forum/view-thread/27551");
            HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
            doc.LoadHtml(html);
            var nodes = doc.DocumentNode.SelectNodes("//span[@class='post_date']");
            foreach (var item in nodes)
            {
                Console.WriteLine(item.InnerText);
            }
1
0 / 0 / 0
Регистрация: 11.12.2017
Сообщений: 9
08.11.2018, 17:26  [ТС]
а можно в двух словах объяснить в чем разница между AngleSharp и HtmlAgilityPack? Я еще только выбираю платформу для парсинга, поэтому есть более удобные или лучшие варианты, я начну изучать их. просто AngleSharp первый кто попался на глаза, когда я убегал от Regex)

Ну а за ответ спасибо) попробую сейчас погуглить про HtmlAgilityPack, и посмотреть что он из себя преставляет
0
 Аватар для PoPsa85
814 / 561 / 240
Регистрация: 01.07.2018
Сообщений: 1,818
08.11.2018, 17:29
mr_mark_ru, Разницы большой нет. Но по HtmlAgilityPack инфы в сети намного больше. Так же рекомендую почитать вот это https://msiter.ru/tutorials/xpath
1
0 / 0 / 0
Регистрация: 11.12.2017
Сообщений: 9
08.11.2018, 17:38  [ТС]
Хорошо, спасибо за материал, обязательно прочту. Но так как скоро уйду спать а перед сном хотелось бы что-нибудь сделать и запомнить не вникая в множество текстов, мог бы ты пояснить каждую из этих строчек?
C#
1
2
3
4
5
            WebClient client = new WebClient() { Encoding = Encoding.UTF8 };
            string url = client.DownloadString("https://ru.pathofexile.com/forum/view-thread/27551");
            HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
            doc.LoadHtml(url);
            var nodes = doc.DocumentNode.SelectNodes("//h1[@class='topBar last layoutBoxTitle']");
Я правильно понимаю что сначало мы подключаем среду WebClient, в которой у нас хранится сам сайт и задаем ему кодировку.
Затем мы вводим стринг переменную для хранения ссылки на сайт и подгружаем эту ссылку к среде где хранится сайт.
После чего вводим среду где будет хранится HTML код страницы.
Потом Подгружаем туда страницу, код которой нам нужен.
Ну и в конце описываем условия для поиска того чего нам нужно, которая будет хранится в nodes.

Если я все правильно понял и описал выше, то тогда я не понимаю зачем нам первая строка?

(прошу прощения что я возможно говорю глупые вещи, просто очень мне это любопытно и я в этом новечек. Но моё желание понять что-то заставляет меня писать порой глупые догадки)
0
 Аватар для PoPsa85
814 / 561 / 240
Регистрация: 01.07.2018
Сообщений: 1,818
08.11.2018, 17:55
mr_mark_ru,
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
//Создаем объект класса System.Net.WebClient и обзываем его client
WebClient client = new WebClient();
//Задаем кодировку
client.Encoding = Encoding.UTF8;
//Сохраняем исходный код страницы в переменную html типа string
string html = client.DownloadString("https://ru.pathofexile.com/forum/view-thread/27551");
//Создаем объект класса HtmlAgilityPack.HtmlDocument и обзываем его doc
//Можно просто HtmlDocument doc = new HtmlDocument(); если подключить namespace using HtmlAgilityPack;
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
//Передаем методу LoadHtml в качестве параметра нашу строку
doc.LoadHtml(html);
//Получаем коллекцию нод "//span" - выбираем узлы с именем span от текущего узла "[@class='post_date']" - с атрибутом class равным post_date 
var nodes = doc.DocumentNode.SelectNodes("//span[@class='post_date']");
//Проходим в цикле по коллекции node и получаем текст между тегами - InnerText
foreach (var item in nodes)
{
Console.WriteLine(item.InnerText);
}
1
0 / 0 / 0
Регистрация: 11.12.2017
Сообщений: 9
08.11.2018, 17:59  [ТС]
Огромное спаибо за твою помощь. Но для расширения кругозора пусть тема еще повисит, и вдруг кто знает как решить возникшую у меня проблему. ну а раз пока получается на HtmlAgilityPack делать, то переберусь на него )
0
 Аватар для PoPsa85
814 / 561 / 240
Регистрация: 01.07.2018
Сообщений: 1,818
08.11.2018, 18:06
mr_mark_ru, Так и на AngleSharp у вас работает. Только методу Parse нужно передавать строку с html, а не ссылку.
C#
1
2
3
4
5
6
7
8
9
10
            WebClient client = new WebClient();
            client.Encoding = Encoding.UTF8;
            string html = client.DownloadString("https://ru.pathofexile.com/forum/view-thread/27551");
            
            var parser = new HtmlParser().Parse(html);
            var items = parser.QuerySelectorAll("span.post_date");
            foreach (var item in items)
            {
                Console.WriteLine(item.InnerHtml);
            }
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18298 / 14222 / 5368
Регистрация: 17.03.2014
Сообщений: 28,900
Записей в блоге: 1
08.11.2018, 18:13
mr_mark_ru, твой код не работает потому что метод Parse принимает html, а не адрес страницы. Вот правильный код
C#
1
2
3
4
5
6
7
8
9
10
11
string url = "https://ru.pathofexile.com/forum/view-thread/27551";
 
var config = Configuration.Default.WithDefaultLoader();
var document = await BrowsingContext.New(config).OpenAsync(url);
var list = new List<string>();
var items = document.QuerySelectorAll("span.post_date");
foreach (var item in items)
{
    list.Add(item.TextContent);
}
Console.WriteLine("Кол-во найденных элементов = " + list.Count.ToString());
Цитата Сообщение от mr_mark_ru Посмотреть сообщение
а можно в двух словах объяснить в чем разница между AngleSharp и HtmlAgilityPack?
AngleSharp использует CSS селекторы для работы с DOM, а HtmlAgilityPack скорее ближе к XML. Тому кто уже работал с XML/XPath проще использовать именно HtmlAgilityPack. Веб-программистам проще с AngleSharp. На мой вкус код с AngleSharp получается обычно короче и выразительнее чем с HtmlAgilityPack. И поэтому я скорее посоветую AngleSharp.
0
0 / 0 / 0
Регистрация: 11.12.2017
Сообщений: 9
08.11.2018, 18:16  [ТС]
да, вот я сижу и сравниваю два эти парсера и у AngleSharp код по моему проще получается для усвоения. но все же это кому как наверное...

скопировал твой код к себе и у меня шарп ругается на это:
C#
1
2
3
4
//Оператор await можно использовать только в методах с модификатором async.
//Попробуйте пометить этот метод модификатором async и изменить
//тип его возвращаемого значения на Task.
await BrowsingContext.New(config).OpenAsync(url);
0
 Аватар для EveKS
601 / 485 / 185
Регистрация: 19.04.2016
Сообщений: 1,885
08.11.2018, 18:19
Даже в гите предложен вариант как скачивать...
AngleSharp
Еще вариант
Ну или воспользоваться иными средствами, под тип WebClient, но не как не .Parse(url)
0
 Аватар для PoPsa85
814 / 561 / 240
Регистрация: 01.07.2018
Сообщений: 1,818
08.11.2018, 18:19
Цитата Сообщение от OwenGlendower Посмотреть сообщение
AngleSharp использует CSS селекторы для работы с DOM, а HtmlAgilityPack скорее ближе к XML
HtmlAgilityPack + Fizzler и можем юзать css селекторы.
1
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18298 / 14222 / 5368
Регистрация: 17.03.2014
Сообщений: 28,900
Записей в блоге: 1
08.11.2018, 18:22
Цитата Сообщение от mr_mark_ru Посмотреть сообщение
скопировал твой код к себе и у меня шарп ругается на это:
Цитата Сообщение от mr_mark_ru Посмотреть сообщение
//Попробуйте пометить этот метод модификатором async и изменить
//тип его возвращаемого значения на Task.
Сделай то что написано в тексте ошибки. В настройках компиляции возможно понадобится выбрать C# 7.1 или выше.

Добавлено через 26 секунд
Цитата Сообщение от PoPsa85 Посмотреть сообщение
HtmlAgilityPack + Fizzler и можем юзать css селекторы.
Я в курсе. Спасибо.
0
0 / 0 / 0
Регистрация: 11.12.2017
Сообщений: 9
08.11.2018, 18:24  [ТС]
проблема в том что я не понимаю о чем мне именно говорят в тексте ошибки) И где найти настройки компиляции?
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18298 / 14222 / 5368
Регистрация: 17.03.2014
Сообщений: 28,900
Записей в блоге: 1
08.11.2018, 18:41
mr_mark_ru, раз такие трудности, то замени строку на
C#
1
var document = BrowsingContext.New(config).OpenAsync(url).GetAwaiter().GetResult();
0
 Аватар для EveKS
601 / 485 / 185
Регистрация: 19.04.2016
Сообщений: 1,885
08.11.2018, 18:43
Цитата Сообщение от mr_mark_ru Посмотреть сообщение
проблема в том что я не понимаю о чем мне именно говорят в тексте ошибки) И где найти настройки компиляции?
Цитата Сообщение от mr_mark_ru Посмотреть сообщение
//Оператор await можно использовать только в методах с модификатором async. //Попробуйте пометить этот метод модификатором async и изменить //тип его возвращаемого значения на Task.
Цитата Сообщение от OwenGlendower Посмотреть сообщение
Сделай то что написано в тексте ошибки. В настройках компиляции возможно понадобится выбрать C# 7.1 или выше.
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
static void Main()
{
    Foo().Wait();
 
    Console.ReadLine();
}
 
private static async Task Foo()
{
    string url = "https://ru.pathofexile.com/forum/view-thread/27551";
 
    var config = Configuration.Default.WithDefaultLoader();
    var document = await BrowsingContext.New(config).OpenAsync(url);
    var list = new List<string>();
    var items = document.QuerySelectorAll("span.post_date");
    foreach (var item in items)
    {
        list.Add(item.TextContent);
    }
    Console.WriteLine("Кол-во найденных элементов = " + list.Count.ToString());
}
0
0 / 0 / 0
Регистрация: 11.12.2017
Сообщений: 9
08.11.2018, 18:53  [ТС]
Спасибо всем большое) теперь все работает и осталось только разобраться как дальше с этим плясать и как этим всем манипулировать и пользоваться)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
08.11.2018, 18:53
Помогаю со студенческими работами здесь

Не получается распарсить строку
Здравствуйте , у меня возникла проблема вот допустим у меня есть хтмл страница и мне нужно в ней найти строку &lt;div...

Не получается распарсить xml
Здравствуйте. помогите пожалуйста. есть xml: &lt;?xml version =&quot;1.0&quot; encoding =&quot;utf-8&quot;?&gt; &lt;pogoda version =&quot;4.1&quot;&gt; ...

Не получается распарсить textBox
Есть задание: из textBox-а достать текст вида &quot;a f w g e h d h&quot; и записать каждую букву в массив char либо список. Перепробовал многое,...

Не получается распарсить урлы регуляркой
Очень неудобно в С++ работать с регулярками, даже именованных групп нет. Много гуглил, написал вот это, а оно не арбайтен. Я уже ничего не...

Не получается распарсить страницу с помощью HtmlAgilityPack
Доброй ночи. Почему-то не получается запарсить html-страницу при помощи HtmlAgilityPack. Код: try { ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
17
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++
8Observer8 17.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-rectangles-sdl3-c. zip finish-rectangles-sdl3-cpp. zip
Символические и жёсткие ссылки в Linux.
algri14 15.03.2026
Существует два типа ссылок — символические и жёсткие. Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru