Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.91/43: Рейтинг темы: голосов - 43, средняя оценка - 4.91
14 / 14 / 1
Регистрация: 23.06.2011
Сообщений: 34

Парсинг с помощью mshtml

30.11.2011, 23:44. Показов 8779. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
pps ошибся и не правильно назвал тему, с помощью mshtml

Всем привет такой вопрос. У меня есть html страничка, которую я получаю с помощью пост запроса.
C#
1
2
3
string html = " <body>......</body>";
mshtml.IHTMLDocument2 doc = new mshtml.HTMLDocumentClass();
 doc.write(html);
В ней есть некоторая таблица, часть
HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
<tr>
  <th width="30">
    <a href="#" tabindex="6">5</a>
  </th>
  <th width="30">
    <a class="over_lib" style="cursor: pointer;">
      <img src="skins/xnova-evolution-plus/planeten/small/s_dschjungelplanet09.jpg" height="30" width="30">
    </a>
  </th>
  <th style="white-space: nowrap;" width="130">
    <font color="red">2ва</font>
  </th>
  <th style="white-space: nowrap;" width="30">
    <a class="over_lib" style="cursor: pointer;">
      <img src="skins/xnova-evolution-plus/planeten/small/s_mond.jpg" height="30" width="30">
    </a>
  </th>
  <th style="white-space: nowrap;" width="30"></th>
  <th width="150">
    <a class="over_lib" style="cursor: pointer;" href="options.php">
_2-D_ </a>
  </th>
  <th width="80">
    <a class="over_lib" style="cursor: pointer;">
      <span class="allymember">Garfield</span>
    </a>
  </th>
  <th style="white-space: nowrap;" width="125"></th>
</tr>
мне нужно получить элементы этой таблицы и я не знаю как. Раньше делал через webbrouser и там использовал getelement by tag name
C#
1
2
HtmlElementCollection tr = webBrowser1.Document.GetElementsByTagName("tr");
 HtmlElementCollection td = tr[i].GetElementsByTagName("th");
всё получалось, но хотелось бы без webbrouser, но в mshtml нет GetElementsByTagName.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
30.11.2011, 23:44
Ответы с готовыми решениями:

Парсинг HTML, используя библиотеку mshtml
Доброго дня суток. У меня появилася проблема в парсинге HTML страницы. Задача состоит вот в чем:...

Парсинг с использованием библиотеки mshtml без элемента управления WebBrowser
Здравствуйте,Нужна помощь надо взять капчу с сайта http://www.tcell.tj/sendsms/send.php без...

Парсинг веб-страницы с применением mshtml
Привет. Запускаю такой код и в строке с &quot;write&quot; появляется сообщение &quot;Данные веб-сайта можно...

4
 Аватар для sau
2773 / 2073 / 386
Регистрация: 22.07.2011
Сообщений: 7,820
01.12.2011, 00:07
Легких путей не ищем ? , используй IHTMLDocument3, там все есть.
http://msdn.microsoft.com/en-u... S.85).aspx
0
14 / 14 / 1
Регистрация: 23.06.2011
Сообщений: 34
01.12.2011, 20:17  [ТС]
не знал об этом, я первый день наткнулся на эту библиотеку))

можно поподробнее, как сделать

Добавлено через 19 часов 55 минут
вопрос актуален
0
LAPAGURU
12.01.2013, 15:31
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
using System.Net;
using mshtml;
 
 
               WebRequest req1 = WebRequest.Create("samsing url")
 
                req1.Method = "GET";
                req1.Credentials = System.Net.CredentialCache.DefaultCredentials;
                req1.AuthenticationLevel = System.Net.Security.AuthenticationLevel.MutualAuthRequested;
                WebResponse res1 = req1.GetResponse();
                StreamReader sr1 = new StreamReader(res1.GetResponseStream());
                string returnvalue1 = sr1.ReadToEnd();
 
                HTMLDocument doc = new HTMLDocument();
                IHTMLDocument2 doc2 = (IHTMLDocument2)doc;
                doc2.clear();
                doc2.write(returnvalue1);
 
                IHTMLDocument3 doc3 = (IHTMLDocument3)doc2;
                IHTMLElement div = doc3.getElementById("YouId or ne YouId");
                
 
                IHTMLElementCollection allInputs = div.all;
 
                foreach (IHTMLElement tst in allInputs)
                {
 
                        string result = tst.innerHTML;
                        richTextBox1.Text = result;
 
                 }
LAPAGURU
15.01.2013, 12:56
А вообще, для более лучшего понимания я объясню все этапы работы парсера с использованием mshtml.

Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
.................
.................
.................
using mshtml;
 
private void Parse()
{
    HTMLDocument    doc; //Класс
    IHTMLDocument2 doc2; //Интерфейс второго уровня 
    IHTMLDocument3 doc3; //Интерфейс третьего уровня - не поленитесь почитайте что за уровни? 
                                     //и как их препарировать
    string s = "";  //куда будем складывать данные
 
    //Допустим мы где-то достали HTML страничку и поместили ее в переменную html
    string html = "<html __expr-val-dir='ltr' dir='tr'>
                       <body class='body' scroll='yes' onload='javascript:_spBodyOnLoadWrapper();'>
                          <div id='someid' style='width: auto'>
                          <div class='resultS'>
                         <h1>
                        Результаты поиска
                         </h1>
                          </div>
 
                              <div class='forms resultSearchTable' style='width: auto'>
                        <table class='resultsINN columnsAuto' style='width: 100%!important; table-layout:auto'>
                       <col width='15' />
                       <col width='90' />
                       <col width='25' />
                       <col width='55' />
                                   <col width='80' />
                       <col width='80' />
                       <col width='60' />
                       <col width='60' />
                       <col width='80' />
                                   <col width='130' />
                                 <thead>
                     <tr>
                    <td style='vertical-align: middle'>
                        №
                    </td>
                    <td style='vertical-align: middle'>
                        Наименование
                    </td>
                    <td style='vertical-align: middle'>
                        Тип
                    </td>
                    <td style='vertical-align: middle'>
                        Резидент
                    </td>
                                        <td style='vertical-align: middle'>
                        ИНН
                    </td>
                    <td style='vertical-align: middle'>
                            БИН
                    </td>
                    <td style='vertical-align: middle'>
                        Дата гос. регистрации
                    </td>
                    <td style='vertical-align: middle'>
                        Дата снятия с учёта
                    </td>
                    <td style='vertical-align: middle'>
                        Причина снятия с учёта
                    </td>
                                        <td style='vertical-align: middle'>
                        Дополнительные сведения
                    </td>
                      </tr>
                    </thead>
                    <tbody>
                      <tr>
                    <td class="complKnowlege" style="vertical-align:middle;">
                        1
                    </td>
                    <td class="complKnowlege" style="vertical-align:middle;">
                        ШЕВЕЛЕВА ОКСАНА ЮРЬЕВНА
                    </td>
                    <td style="vertical-align:middle;">
                        ФЛ
                    </td>
                    <td style="vertical-align:middle;">
                        Да
                    </td>
                    <td style="vertical-align:middle;">
                        600412066086
                    </td>
                    <td style="vertical-align:middle;">
                        771125400672
                    </td>
                    <td style="vertical-align:middle;">
                        31.08.2000
                    </td>
                    <td style="vertical-align:middle;">
                                
                    </td>
                    <td class="complKnowlege" style="vertical-align:middle;">
                                
                    </td>
                    <td class="complKnowlege" style="vertical-align:middle;">
                                
                    </td>
                     </tr>
                        </tbody>
                      </table>
                       </div>
                         </div>
                     </body>
               </html>";
                //Нам позарез захотелось вытащить индивидуальные данные прекрасной дамы (тут она ОКСАНА ЮРЬЕВНА)
 
                //первое что приходит в голову есть элемент div с id = "someid", который включает все остальные
                //элементы 
                //И так поехали
 
                 doc = new HTMLDocument(); //создаем элемент doc на прямую к классу HTMLDocumentClass 
                                                        //нам доступ закрыт
                 doc2 = (IHTMLDocument2)doc; //Инициализируем интерфейс 2 го уровня  
                 doc2.write(html ); //передаем интерфейсу наш документ
 
                //Мы бы могли не трах..ься, а использовать сразу doc класс но тогда мы не выделим нужные нам объекты
                //Если не верите попробуйте сами выделить нужные вам объекты 
 
                IHTMLElement div = doc3.getElementById("someid"); //вычленяем наш элементик
                if (div != null)
                {
                     //если он не null
                     IHTMLElementCollection el = div.children; //в el передаем все дочерние элементы
                     foreach (IHTMLElement ff in el)
                     {
                            if (ff.className == "forms resultSearchTable") // тутачки выделяем класс элемента, 
                                                                                          //а именно наш 2 ой div элемент
                            {
                                   IHTMLElementCollection el2 = ff.all; //в el2 кладем все элементы div
                                   foreach (IHTMLElement ff2 in el2)
                                   {
                                          if (ff2 is mshtml.HTMLTable){ //проверяем если в этом элементе есть таблица
                                                                                  //хотя могли воспользоваться свойством className 
                                                                                  //но мы из принципа пройдем весь путь дальше
                                                IHTMLElementCollection el3 = ff2.all; //в el3 кладем все элементы уже нашей таблицы
                                                foreach (IHTMLElement ff3 in el3)
                                                {
                                                    if (ff3 is mshtml.HTMLTableSection) //если этот элемент одна из 
                                                                                                    //секций таблицы  <TBODY> или <THEAD>
                                                    {
                                                          //здесь бы мы могли вставить фильтр типа if (ff3.TagName == "TBODY") 
                                                          //но не будем этого делать  
                                                          
                                                          IHTMLElementCollection el4 = ff3.all; //выделяем все элементы таблички
                                                          foreach (IHTMLElement ff4 in el4)
                                                          {
                                                                if (ff4 is mshtml.HTMLTableRow) //проверяем, 
                                                                                                            //а выделенные элементы суть стоки? 
                                                                {
                                                                       IHTMLElementCollection el5 = ff4.all;
                                                                       foreach (IHTMLElement ff5 in el5)
                                                                       {
                                                                           s+ = ff5.innerText +"\t";
                                                                       }
                                                                 }
                                                            }
 
                                                     }
                                                 }
                                             }
                                         }
                                   }
                            }
                     
                 } 
                 else s = "Все плохо! Не нашли данный класс"
 
 
}
Надеюсь после представленного кода исчезнут вопросы на счет интерфейсов MSHTML
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
15.01.2013, 12:56
Помогаю со студенческими работами здесь

Подключить mshtml.dll
В проекте добавляю ссылку на mshtml.dll , и вылетает ошибка --------------------------- Не...

Что такое Microsoft.mshtml ?
Всем привет! Кто-нибудь может сказать, за что отвечает библиотека Microsoft.mshtml ?

HTML-страница в mshtml.HTMLDocument - как?
Сабж. Есть html-страничка, полученная через httpweb(req/res), ее необходимо преобразовать в объект...

Как подключить библиотеку mshtml
Как подключить библиотеку mshtml? В проекте необходимо использовать mshtml, но при добавлении...

mshtml.dll При выполнении Submit у формы ничего не происходит
Есть некое приложение написанное на C# которое с помощью mshtml.dll загружает страницу. затем...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru