Форум программистов, компьютерный форум, киберфорум
Visual Basic .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.82/11: Рейтинг темы: голосов - 11, средняя оценка - 4.82
27 / 26 / 11
Регистрация: 25.03.2014
Сообщений: 217
.NET 4.x

Парсинг HTML - поиск всех вхождений текста

31.05.2015, 08:05. Показов 2376. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Приветствую.
Достаю html код нужной страницы вот таким образом:
VB.NET
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Imports System.Net
Imports System.IO
Public Class Form1
 
    Private Sub Form1_Load(sender As Object, e As EventArgs) Handles MyBase.Load
        Dim WC As New WebClient 
        Dim HtmlText As String, Result As String
        HtmlText = WC.DownloadString(New Uri("http://iccup.com/dota/ladder/5x5/page1.html"))
        WC.Dispose()
        Result = Pars(HtmlText, ("gamingprofile/"), (".html"))
    End Sub
    Public Function Pars(ByRef strSource As String, ByRef strStart As String, ByRef strEnd As String) As String
        Dim iPos As Integer, iEnd As Integer
        Dim strResult As String
        iPos = strSource.IndexOf(strStart, 0)
        iEnd = strSource.IndexOf(strEnd, iPos + strStart.Length)
        If iPos <> -1 AndAlso iEnd <> -1 Then
            strResult = strSource.Substring(iPos + strStart.Length, iEnd - (iPos + strStart.Length))
        End If
        Return strResult
    End Function
End Class
Из кода видно, что я пытаюсь найти то, что лежит между подстроками "gamingprofile/" и ".html". Проблема в том, что искомые подстроки на странице не одни, а достаточно много. Так вот - как же мне найти все искомые подстроки, а не первую попавшуюся?
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
31.05.2015, 08:05
Ответы с готовыми решениями:

Поиск всех вхождений
Здравствуйте, нужна ваша помощь. у меня есть примерно следующий html код: &lt;p itemprop=&quot;articleBody&quot;&gt; надпись 1 ...

Последовательный поиск всех вхождений
Необходимо реализовать алгоритм последовательного поиска всех вхождений в заданном тексте. То есть, как в текстовом редакторе: нашли...

Парсинг текста с html
Хочу спарсить текст с скачанного html документа, но вообще не шарю как это сделать. Есть какие либо идеи? Как я понимаю он находиться...

2
 Аватар для Desh
147 / 147 / 41
Регистрация: 01.12.2009
Сообщений: 275
01.06.2015, 08:56
Лучший ответ Сообщение было отмечено Памирыч как решение

Решение

Как вариант: вместо
VB.NET
1
 Result = Pars(HtmlText, ("gamingprofile/"), (".html"))
используйте
VB.NET
1
2
3
4
5
6
7
8
9
10
11
 Dim findStrings() As String 'Массив с напарсеными строками
        Dim i As Integer = 0
        Do
            Result = Pars(HtmlText, ("gamingprofile/"), (".html"))
            If Result <> "" Then
                ReDim Preserve findStrings(i)
                findStrings(i) = Result
                i += 1
                HtmlText = Mid(HtmlText, InStr(HtmlText, ".html") + 5) 'обрезаем HtmlText по первому вхождению ".html" (не включая текст ".html")
            End If
        Loop Until Result = "" 'Если функция парсинга вернет пустую строку - выходим из цикла
Чтобы не подвисало, цикл можно пустить отдельным потоком
2
1548 / 1521 / 325
Регистрация: 03.10.2012
Сообщений: 1,551
02.06.2015, 00:15
Лучший ответ Сообщение было отмечено Памирыч как решение

Решение

Еще вариант: Сделать функцию Pars рекурсивной.
Добавляем еще один аргумент и с помощью него при каждом вызове сдвигаем область поиска к концу на величину найденного.
VB.NET
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
 Dim strResult As String
    Dim iPos As Integer, iEnd As Integer
 
    Private Sub Button1_Click(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles Button1.Click
        Dim WC As New WebClient
        Dim HtmlText As String
        HtmlText = WC.DownloadString(New Uri("http://iccup.com/dota/ladder/5x5/page1.html"))
        WC.Dispose()
        Pars(HtmlText, ("gamingprofile/"), (".html"), 0)
    End Sub
 
    Public Sub Pars(ByRef strSource As String, ByRef strStart As String, ByRef strEnd As String, ByVal Pos As Integer)
        iPos = strSource.IndexOf(strStart, Pos)
        iEnd = strSource.IndexOf(strEnd, iPos + strStart.Length)
 
        If iPos <> -1 AndAlso iEnd <> -1 Then
            strResult = strSource.Substring(iPos + strStart.Length, iEnd - (iPos + strStart.Length))
            ListBox1.Items.Add(strResult)
            Pars(strSource, ("gamingprofile/"), (".html"), iPos + strStart.Length)
        Else
            Exit Sub
        End If
    End Sub
Уверен, что есть еще варианты, например, при помощи запроса LINQ TO XML, но пока не знаю точно как это сделать, сам сейчас грызу MSDN по этой теме.
3
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
02.06.2015, 00:15
Помогаю со студенческими работами здесь

Поиск всех вхождений шаблона в строку
Здравствуйте,хотела к вам обратиться за помощью..в файле t.txt есть строка из символов букв латинского алфавита,длиной до 100000 знаков....

Поиск всех вхождений текстовой строки
Здраствуйте. Нужна помощь в написании программы на Haskell результатом работы которой будет: Все вхождения (номер строки и позиция в...

Поиск всех вхождений подстроки в строку
Здравствуйте, помогите пожалуйста со следующей задачей. Имеется переменная, в которую загружен достаточно длинный текст. Мне нужно найти...

Удалить теги из текста (парсинг html)
И снова доброго времени суток дорогие программисты! Опишу суть вопроса: через функцию:...

Парсинг и замена текста в html (python3)
Приветствую Друзья, если не затруднит, подскажите решение для python3. Есть некий html файл, вполне себе стандартный, в нем среди...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
AkelPad-скрипты, структуры, и немного лирики..
testuser2 05.04.2026
Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .
Отображение реквизитов в документе по условию и контроль их заполнения
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеСпецтехники", разработанного в конфигурации КА2. Данный документ берёт данные из другого нетипового документа. . .
Фото всей Земли с борта корабля Orion миссии Artemis II
kumehtar 04.04.2026
Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .
Вывод диалогового окна перед закрытием, если документ не проведён
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .
Программный контроль заполнения реквизита табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита "ПричинаСписания". . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru