Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.73/11: Рейтинг темы: голосов - 11, средняя оценка - 4.73
0 / -1 / 0
Регистрация: 08.03.2017
Сообщений: 159

Тонкости парсинга через Fizzler и HtmlAgilityPack

17.01.2019, 21:07. Показов 2170. Ответов 1

Студворк — интернет-сервис помощи студентам
Привет. Есть простой код для парсинга сайта на HtmlAgilityPack с поддержкой Fizzler. В целом все было бы хорошо, если бы не проблема, из-за которой я уже несколько раз оставлял проект на неопределенный срок. Если выводит полученную страницу как текст, то получаю вот такие дефекты:
HTML5
1
2
3
4
<strong>
    <svg><use xlink:href="#i-chapter"></use></svg>
    <span>42 Chapters</span>
</strong>
Мне выводит "голую" страницу.
Как я понял, это из-за того, что не успевают выполняться ajax запросы. Как мне избежать этого и получить нормальную полноценную страницу?
Код софта:
C#
1
2
3
4
5
var data = new HttpRequest();
            string response = data.Get(url).ToString();
            HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
            doc.LoadHtml(response);
            richTextBox1.Text = response;
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
17.01.2019, 21:07
Ответы с готовыми решениями:

Можно ли увеличить скорость парсинга в HtmlAgilityPack?
Привет всем, я написал код для парсинга одного сайт, код рабочий, но срабатывает довольно долго(от 1-5 секунд). Hap.HtmlWeb webDoc1 =...

Обмен переменных через XOR - тонкости
main() { int a=5, b=10; a^=b; b^=a; a^=b; printf(&quot;%d %d&quot;, a, b); } main() {

Не удается полностью спарсить через HtmlAgilityPack
Пытаюсь спарсить все имена на сайте,но почему то парсинг начинается с буквы Д,а не с буквы А namespace ConsoleApplication13 { ...

1
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18297 / 14221 / 5368
Регистрация: 17.03.2014
Сообщений: 28,897
Записей в блоге: 1
17.01.2019, 21:54
Disaine, HtmlAgilityPack вообще не выполняет JavaScript. Если ты точно уверен что это из-за AJAX запросов, то посмотри какие именно запросы делает страницы, отправляй их и парси ответ.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
17.01.2019, 21:54
Помогаю со студенческими работами здесь

Выбор дочерних HTML элементов через HtmlAgilityPack
Добрый день. Я новичок в C#, поэтому не могу разобраться с таким моментом. В Python существует библиотека BeautifulSoup для парсинга...

Не открывается ссылка через webbrowser для парсинга
Есть ссылка : http://s4.radioboss.fm:8158/ Как её открыть для парса?

Тонкости наследования C#
Имееются следующие классы: public class Parent { public virtual void Foo() { ...

Тонкости с TIdMultipartFormDataStream
Есть простой код и он раньше работал на одном хостинге: var Stream: TIdMultipartFormDataStream; begin Stream :=...

Тонкости наследования
Допустим я написал класс, описывающий некую структуру данных, поля которой содержат указатели на этот же класс. Как обернуть структуру в...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru