|
129 / 65 / 16
Регистрация: 03.09.2015
Сообщений: 832
|
||||||
Как ускорить парсинг html?08.06.2016, 11:44. Показов 1843. Ответов 14
Метки нет (Все метки)
Всем привет.
Столкнулся с такой проблемой, что парсинг html текста идет очень долго. Посмотрите пожалуйста, как можно оптимизировать код по скорости?
0
|
||||||
| 08.06.2016, 11:44 | |
|
Ответы с готовыми решениями:
14
Парсинг HTML
Ускорить парсинг страницы |
|
646 / 474 / 39
Регистрация: 04.11.2013
Сообщений: 1,951
|
|||||||||||
| 08.06.2016, 13:08 | |||||||||||
|
Вот этот кусок через regex можно оптимизировать, но тормозит, скорее всего, не он, а запись и тут же чтение файла everyline.txt.
0
|
|||||||||||
|
Администратор
|
|
| 08.06.2016, 13:20 | |
|
ziqp, что именно должен делать код? Выбрать все тексты внутри тегов SPAN?
0
|
|
|
129 / 65 / 16
Регистрация: 03.09.2015
Сообщений: 832
|
|
| 08.06.2016, 14:55 [ТС] | |
|
Proidoha, спасибо за код. Обязательно протестирую что быстрее.
OwenGlendower, код должен выбирать данные из span и обрабатывать по маске (с масками работать не умею, все через split и т. д.). Но главная мысль в том, чтобы если нашлись данные которые мне нужны*, следующие 3 значения из следующих span должны соединяться в одну строку + те данные*
0
|
|
|
Администратор
|
||||||
| 08.06.2016, 15:08 | ||||||
|
ziqp, тогда начни с использования встроенных методов для выбора элементов. Ведь WebBrowser представляет документ в виде дерева (т.н. DOM модель) с которой работать удобнее чем со строками. Например такой код вернет список всех span-ов на странице:
2
|
||||||
|
129 / 65 / 16
Регистрация: 03.09.2015
Сообщений: 832
|
||||||
| 08.06.2016, 16:35 [ТС] | ||||||
|
Извини, завел в заблуждение. Такую вещь я уже использовал, если между тегов, то берет отлично. Здесь это не прокатывает. html в таком виде:
0
|
||||||
|
Администратор
|
|
| 08.06.2016, 16:55 | |
|
ziqp, html выглядит простым. По идее проблем быть не должно. Что именно с ним не прокатывало?
0
|
|
|
129 / 65 / 16
Регистрация: 03.09.2015
Сообщений: 832
|
||||||
| 10.06.2016, 16:48 [ТС] | ||||||
|
А проблема вот в чем:
Возможно проблема в cc = (spans(i).GetAttribute("span")), но по-другому пишет, что htmlelement невозможно перенести в string
0
|
||||||
|
Модератор
4358 / 3428 / 512
Регистрация: 27.01.2014
Сообщений: 6,258
|
||||||
| 11.06.2016, 20:12 | ||||||
|
а .GetAttribute("span") вроде имеет свойство VALUE, вот оно наверно должно возвращаться?
0
|
||||||
|
Администратор
|
||||||
| 12.06.2016, 07:27 | ||||||
|
ziqp, ты неправильно работаешь с DOM. Во-первых, тебе нужны элементы span, а не html (который к тому же всегда один). Во-вторых, ты путаешь атрибуты с элементами. Атрибут это пара имя=значение внутри открывающего тега. Например, в записи
<SPAN class=Xb> у span'а есть один атрибут с именем class и имеющий значение Xb. Судя по коду выше тебя интересуют не атрибуты, а текст внутри элемента. Его можно получить через InnerText. В итоге код будет такой:
2
|
||||||
|
129 / 65 / 16
Регистрация: 03.09.2015
Сообщений: 832
|
||||||||||||||||
| 12.06.2016, 11:03 [ТС] | ||||||||||||||||
|
Спасибо. В этом разобрался.
Но появилось новое исключение. После Dim cc As String = spans(i).InnerText записал: If cc.Length = 16 Then Необработанное исключение типа "System.NullReferenceException" при исполнении Если записать в начала On error resume next, ошибка пропадает и все работает корректно, но не уверен, что это правильное решение Добавлено через 34 минуты + нашел то, что сильно тормозит процесс обработки: Быстро:
+ к этому еще и портит результаты. Что-то в этом условии не то.. Добавлено через 3 минуты Добиться хотел я такого результата, но это уже совсем другое:
0
|
||||||||||||||||
|
Администратор
|
|||||||||||||
| 12.06.2016, 13:09 | |||||||||||||
0
|
|||||||||||||
|
129 / 65 / 16
Регистрация: 03.09.2015
Сообщений: 832
|
|||||||||||
| 12.06.2016, 16:50 [ТС] | |||||||||||
|
с нулевым значение понял.
А с методом, наверное, недопонимание: Я хочу, чтобы программа выполняла так:
От чего это и в чем проблема?
0
|
|||||||||||
|
1086 / 916 / 213
Регистрация: 29.09.2015
Сообщений: 1,019
|
|
| 12.06.2016, 17:08 | |
|
& это знак конкатенации строк
может написать andAlso ?
1
|
|
|
Администратор
|
||||||
| 12.06.2016, 17:16 | ||||||
Сообщение было отмечено ziqp как решение
Решение
ziqp, проверку можно сделать один раз и затем уже делать дальнейшие действия. Например, так:
1
|
||||||
| 12.06.2016, 17:16 | |
|
Помогаю со студенческими работами здесь
15
Как реализовать html парсинг? Как и чем делать парсинг HTML? Парсинг делают одновременно со скачиванием html, или в конце со скачанным html Парсинг HTML (HtmlAgilityPack). Как получить картинку между текстом? Qt парсинг html. Вытащить html код тэга? Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога
Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip
https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11680&d=1772460536
Одним из. . .
|
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
|
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
|
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten
8Observer8 27.02.2026
Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .
|
|
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога
Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
|
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование
. \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json>
Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом.
# Check if. . .
|
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так:
https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347
Основана на STM32F303RBT6.
На борту пять. . .
|
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
|