|
1 / 1 / 1
Регистрация: 21.12.2013
Сообщений: 38
|
||||||
Парсинг сайта12.01.2017, 10:34. Показов 2391. Ответов 5
Здравствуйте. Помогите пожалуйста решить следующую проблему. При парсинге я выбираю информацию по определенному классу в HTML, например w1. Но выбираются все значения с классом w1 и содержащими 1, например w11, w12 и т.д. Как сделать, чтобы выбирались значения только с w1?
0
|
||||||
| 12.01.2017, 10:34 | |
|
Ответы с готовыми решениями:
5
Парсинг сайта |
|
.NET senior
441 / 359 / 137
Регистрация: 23.09.2016
Сообщений: 980
|
||||||
| 12.01.2017, 11:55 | ||||||
|
BronsonAG, в условии поменяйте местами проверки - можете словить NullReferenceException, если атрибут "class" отсутствует у текущего анализируемого узла.
А в идеале лучшее вообще так (проще для отладки и нагляднее):
0
|
||||||
|
1 / 1 / 1
Регистрация: 21.12.2013
Сообщений: 38
|
||||||
| 12.01.2017, 12:27 [ТС] | ||||||
|
bax_tang, Дело в том, что в классе может находиться не одно значение, а несколько, например w1 w3 w4 и еще дополнительные символы.
Пример кода HTML
0
|
||||||
|
.NET senior
441 / 359 / 137
Регистрация: 23.09.2016
Сообщений: 980
|
|
| 12.01.2017, 12:50 | |
|
BronsonAG, значит, стоит подумать над дополнительными критериями отбора, чтобы пропускать узлы w11, w12 и т.д.
0
|
|
|
|
||||||
| 12.01.2017, 13:06 | ||||||
Сообщение было отмечено BronsonAG как решение
Решение
BronsonAG, проверку на наличие атрибута class можно вообще не выполнять, если в XPath задать условие, что этот атрибут должен присутствовать
//tr[@class]. Что касается проверки на наличие определенного класса, то можно значение атрибута просто сплитнуть по пробельным литерам и проверять наличие нужного класса в полученном массиве.
1
|
||||||
|
Администратор
|
||||||||||||||||
| 12.01.2017, 17:17 | ||||||||||||||||
|
BronsonAG, это можно только с помощью XPath запроса
//tr[contains(concat(' ', normalize-space(@class), ' '), ' w1 ')] (пробелы вокруг имени класса важны!). Плюс раз ты еще выбираешь td, то можно добавить и его для упрощения кода - //tr[contains(concat(' ', normalize-space(@class), ' '), ' w1 ')]/td
Небольшое предупреждение
На момент написания данного поста версия HtmlAgilityPack - 1.4.9.5. Библиотека же HtmlAgilityPack.CssSelectors откомпилирована под версию 1.4.9.0 и при компиляции идет перезапись библиотеки. Соотвественно нужно устанавливать старую версию HAP или копировать более новую в post build событии. В этом случае в файле конфигурации нужно указать binding redirect
Выборка с помощью этой библиотеки выглядит так:
1
|
||||||||||||||||
| 12.01.2017, 17:17 | |
|
Помогаю со студенческими работами здесь
6
Парсинг сайта Парсинг Сайта Парсинг сайта Парсинг сайта
Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога
Финальные проекты на Си и на C++:
hello-sdl3-c. zip
hello-sdl3-cpp. zip
Результат:
|
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога
MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
|
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд.
Даже если у вас. . .
|
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает
монорепозиторий в котором находятся все исходники.
При создании нового решения, мы просто добавляем нужные проекты
и имеем. . .
|
|
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение:
В этой книге («Подход, основанный на вариантах использования») Ивар утверждает,
что архитектура программного обеспечения — это
структуры,. . .
|
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога
Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
|
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога
Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip
На первой гифке отладочные линии отключены, а на второй включены:. . .
|
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога
Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем.
. . .
|