Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
 
Рейтинг 4.88/8: Рейтинг темы: голосов - 8, средняя оценка - 4.88
1 / 1 / 0
Регистрация: 01.03.2012
Сообщений: 52
1

Парсим сайт. Обработка приложенной строки и ей подобных

02.03.2012, 10:36. Просмотров 1650. Ответов 9
Метки нет (Все метки)

Допустим есть вот такой код

HTML5
1
2
<td>&nbsp;&nbsp;Азербайджанский манат</td>
<td align="right">36,9702</td></tr>
в C# мы используем такой код что бы получить нужное нам число.

C#
1
2
string pattern = "Доллар США</td>\r\n<td align=\"right\">(.*)</td>";
Match match = Regex.Match(html, pattern);
а как правильно описать наш запрос если на сайте вот такой код
HTML5
1
2
3
<td>&nbsp;&nbsp;Азербайджанский манат</td>
 
                  <td align="right">36,9702</td></tr>
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
02.03.2012, 10:36
Ответы с готовыми решениями:

Парсим сайт из 1с
Здравствуйте уважаемые, не кидайтесь кирпичами пожалуйста. ))) Есть сайт . Хочу выдернуть...

Jsoup парсим сайт
Добрый день! хочу разобраться как работать с данной библиотекой. Получаю информацию с сайта...

Декодирование строки вида =?UTF-8? и подобных
Всем доброго времени суток. Возникла у меня ситуация с расшифровкой строк. В своей программе я...

Как удалить совпадающие строки (ячейки) в двух подобных документах
Доброго времени суток. Прошу помочь в решении проблемы. Есть два ексель документа. Один вчерашним...

9
1 / 1 / 1
Регистрация: 01.03.2012
Сообщений: 12
02.03.2012, 11:09 2
попробуй что-то на подобии

HTML5
1
<td[^>]*>\s*(.*)\s*</td>\s*<td[^>]+>\s*\d+(,\d+)?\s*</td>
0
1 / 1 / 0
Регистрация: 01.03.2012
Сообщений: 52
02.03.2012, 11:22  [ТС] 3
Напутал с кодом...вместо "Доллар США" должно быть "Азербайджанский манат"


Цитата Сообщение от d3v1l Посмотреть сообщение
попробуй что-то на подобии

C#
1
<td[^>]*>\s*(.*)\s*</td>\s*<td[^>]+>\s*\d+(,\d+)?\s*</td>
а как он найдет что нужно именно про Азербайджанский манат"? Я просто вырезал кусочек кода а там этих значений много, меняется только валюта.
Примерно так

HTML5
1
2
3
4
5
6
7
8
9
10
<td>&nbsp;&nbsp;Австралийский доллар</td>
<td align="right">26,8858</td></tr>
 
                  <tr><td align="right">944</td>
<td align="left">&nbsp;&nbsp;AZN</td>
<td align="right">1</td>
<td>&nbsp;&nbsp;Азербайджанский манат</td>
 
                  <td align="right">37,0595</td></tr>
<tr><td align="right">051</td>
0
1 / 1 / 1
Регистрация: 01.03.2012
Сообщений: 12
02.03.2012, 11:29 4
вот проверил - работает.

C#
1
2
3
4
5
6
7
8
9
string html = "<td>&nbsp;&nbsp;Азербайджанский манат</td><td align=\"right\">36,9702</td></tr>";
string pattern = "<td[^>]*?>\\s*(?:&nbsp;\\s*)*(.*?)\\s*</td>\\s*<td[^>]+?>\\s*(\\d+(?:,\\d+)*)\\s*</td>";
Match match = Regex.Match(html, pattern);
 
for (byte i = 0; i < match.Groups.Count;i++ )
{
       Console.WriteLine(match.Groups[i]);
 
}
0
1 / 1 / 0
Регистрация: 01.03.2012
Сообщений: 52
02.03.2012, 12:47  [ТС] 5
Вы меня не поняли... я пытаюсь освоить "парсинг сайта".

на примере этого кода:

C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
using System;
using System.IO;
using System.Text;
using System.Text.RegularExpressions;
using System.Net;
 
namespace USD
{
    class Program
    {
        static void Main(string[] args)
        {
            // Текущая дата
            string data = string.Empty;
            // Адрес сайта с курсом валюты
            string url = "http://www.cbr.ru/currency_base/D_print.aspx?date_req=";
            // HTML сайта с курсом валюты
            string html = string.Empty;
            // Регулярное выражение
            string pattern = "Доллар США</td>\r\n<td align=\"right\">(.*)</td>";
 
 
            // Определяем текущую дату
            DateTime today = DateTime.Now;
            data = today.Date.ToShortDateString();
 
 
            // Формируем адрес сайта
            // [url]http://www.cbr.ru/currency_base/D_print.aspx?date_req=07.03.2010[/url]
            url += data;
 
 
            // Отправляем GET запрос и получаем в ответ HTML-код сайта с курсом валюты
            HttpWebRequest  myHttpWebRequest  = (HttpWebRequest)HttpWebRequest.Create(url);
            HttpWebResponse myHttpWebResponse = (HttpWebResponse)myHttpWebRequest.GetResponse();
            StreamReader myStreamReader = new StreamReader(myHttpWebResponse.GetResponseStream());
            html = myStreamReader.ReadToEnd();
 
            
            // Вытаскиваем из HTML-кода нужные данные
            Match match = Regex.Match(html, pattern);
 
 
            Console.WriteLine("Курс Доллара США на {0} равен {1} руб.", data, match.Groups[1].ToString());
            Console.ReadLine();
        }
    }
}
который работает с этим кодм сайта:

HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
 
<html xmlns="http://www.w3.org/1999/xhtml" >
<html>
<head>
<meta http-equiv="Content-Language" content="ru">
    <title>База данных по курсам валют | Банк России</title>
    <link rel="Stylesheet" type="text/css" href="/style.css">
</head>
<body bgcolor="white">
    
<a href="/"><img src="/images/logo_bigtables.gif"  alt="" border="0"></a>
    
   
    Курсы валют за 08.03.2010 не зарегистрированы.<table cellSpacing="0" cellPadding="0" width="100%" border="0"><tr><td><div class="header2" align="center"><b>Центральный банк Российской Федерации установил с 06.03.2010 следующие курсы иностранных валют к рублю Российской Федерации без обязательств Банка России покупать или продавать указанные валюты по данному курсу</b>
 
</div></td></tr></table><br/>
<table class="CBRTBL"><tr align="center"><td><b>Цифр. код</b></td><td bgcolor="#ffffff"><b>Букв. код</b></td><td bgcolor="#ffffff"><b>Единиц</b></td><td bgcolor="#ffffff"><b>Валюта</b></td><td bgcolor="#ffffff"><b>Курс</b></td></tr>
<tr><td align="right">036</td>
<td align="left">&nbsp;&nbsp;AUD</td>
<td align="right">1</td>
<td>&nbsp;&nbsp;Австралийский доллар</td>
<td align="right">26,8858</td></tr>
 
<tr><td align="right">944</td>
<td align="left">&nbsp;&nbsp;AZN</td>
<td align="right">1</td>
<td>&nbsp;&nbsp;Азербайджанский манат</td>
<td align="right">37,0595</td></tr>
<tr><td align="right">051</td>
<td align="left">&nbsp;&nbsp;AMD</td>
<td align="right">1000</td>
<td>&nbsp;&nbsp;Армянских драмов</td>
 
<td align="right">76,7501</td></tr>
<tr><td align="right">974</td>
<td align="left">&nbsp;&nbsp;BYR</td>
<td align="right">1000</td>
<td>&nbsp;&nbsp;Белорусских рублей</td>
<td align="right">10,1485</td></tr>
<tr><td align="right">975</td>
<td align="left">&nbsp;&nbsp;BGN</td>
<td align="right">1</td>
 
<td>&nbsp;&nbsp;Болгарский лев</td>
<td align="right">20,7127</td></tr>
<tr><td align="right">986</td>
<td align="left">&nbsp;&nbsp;BRL</td>
<td align="right">1</td>
<td>&nbsp;&nbsp;Бразильский реал</td>
<td align="right">16,6853</td></tr>
<tr><td align="right">348</td>
<td align="left">&nbsp;&nbsp;HUF</td>
 
<td align="right">100</td>
<td>&nbsp;&nbsp;Венгерских форинтов</td>
<td align="right">15,1879</td></tr>
<tr><td align="right">410</td>
<td align="left">&nbsp;&nbsp;KRW</td>
<td align="right">1000</td>
<td>&nbsp;&nbsp;Вон Республики Корея</td>
<td align="right">26,1690</td></tr>
<tr><td align="right">208</td>
 
<td align="left">&nbsp;&nbsp;DKK</td>
<td align="right">10</td>
<td>&nbsp;&nbsp;Датских крон</td>
<td align="right">54,4265</td></tr>
<tr><td align="right">840</td>
<td align="left">&nbsp;&nbsp;USD</td>
<td align="right">1</td>
<td>&nbsp;&nbsp;Доллар США</td>
<td align="right">29,8366</td></tr>
 
<tr><td align="right">978</td>
<td align="left">&nbsp;&nbsp;EUR</td>
<td align="right">1</td>
<td>&nbsp;&nbsp;Евро</td>
<td align="right">40,5211</td></tr>
<tr><td align="right">356</td>
<td align="left">&nbsp;&nbsp;INR</td>
<td align="right">100</td>
<td>&nbsp;&nbsp;Индийских рупий</td>
 
<td align="right">65,2594</td></tr>
<tr><td align="right">398</td>
<td align="left">&nbsp;&nbsp;KZT</td>
<td align="right">100</td>
<td>&nbsp;&nbsp;Казахских тенге</td>
<td align="right">20,2687</td></tr>
<tr><td align="right">124</td>
<td align="left">&nbsp;&nbsp;CAD</td>
<td align="right">1</td>
 
<td>&nbsp;&nbsp;Канадский доллар</td>
<td align="right">28,8946</td></tr>
<tr><td align="right">417</td>
<td align="left">&nbsp;&nbsp;KGS</td>
<td align="right">100</td>
<td>&nbsp;&nbsp;Киргизских сомов</td>
<td align="right">66,6740</td></tr>
<tr><td align="right">156</td>
<td align="left">&nbsp;&nbsp;CNY</td>
 
<td align="right">10</td>
<td>&nbsp;&nbsp;Китайских юаней</td>
<td align="right">43,7064</td></tr>
<tr><td align="right">428</td>
<td align="left">&nbsp;&nbsp;LVL</td>
<td align="right">1</td>
<td>&nbsp;&nbsp;Латвийский лат</td>
<td align="right">57,1145</td></tr>
<tr><td align="right">440</td>
 
<td align="left">&nbsp;&nbsp;LTL</td>
<td align="right">1</td>
<td>&nbsp;&nbsp;Литовский лит</td>
<td align="right">11,7305</td></tr>
<tr><td align="right">498</td>
<td align="left">&nbsp;&nbsp;MDL</td>
<td align="right">10</td>
<td>&nbsp;&nbsp;Молдавских леев</td>
<td align="right">23,4242</td></tr>
 
<tr><td align="right">946</td>
<td align="left">&nbsp;&nbsp;RON</td>
<td align="right">10</td>
<td>&nbsp;&nbsp;Новых румынских леев</td>
<td align="right">99,0164</td></tr>
<tr><td align="right">934</td>
<td align="left">&nbsp;&nbsp;TMT</td>
<td align="right">1</td>
<td>&nbsp;&nbsp;Новый туркменский манат</td>
 
<td align="right">10,4324</td></tr>
<tr><td align="right">578</td>
<td align="left">&nbsp;&nbsp;NOK</td>
<td align="right">10</td>
<td>&nbsp;&nbsp;Норвежских крон</td>
<td align="right">50,3622</td></tr>
<tr><td align="right">985</td>
<td align="left">&nbsp;&nbsp;PLN</td>
<td align="right">1</td>
 
<td>&nbsp;&nbsp;Польский злотый</td>
<td align="right">10,4131</td></tr>
<tr><td align="right">960</td>
<td align="left">&nbsp;&nbsp;XDR</td>
<td align="right">1</td>
<td>&nbsp;&nbsp;СДР (специальные права заимствования)</td>
<td align="right">45,8627</td></tr>
<tr><td align="right">702</td>
<td align="left">&nbsp;&nbsp;SGD</td>
 
<td align="right">1</td>
<td>&nbsp;&nbsp;Сингапурский доллар</td>
<td align="right">21,2951</td></tr>
<tr><td align="right">972</td>
<td align="left">&nbsp;&nbsp;TJS</td>
<td align="right">10</td>
<td>&nbsp;&nbsp;Таджикских сомони</td>
<td align="right">68,3229</td></tr>
<tr><td align="right">949</td>
 
<td align="left">&nbsp;&nbsp;TRY</td>
<td align="right">1</td>
<td>&nbsp;&nbsp;Турецкая лира</td>
<td align="right">19,2581</td></tr>
<tr><td align="right">860</td>
<td align="left">&nbsp;&nbsp;UZS</td>
<td align="right">1000</td>
<td>&nbsp;&nbsp;Узбекских сумов</td>
<td align="right">19,3740</td></tr>
 
<tr><td align="right">980</td>
<td align="left">&nbsp;&nbsp;UAH</td>
<td align="right">10</td>
<td>&nbsp;&nbsp;Украинских гривен</td>
<td align="right">37,1796</td></tr>
<tr><td align="right">826</td>
<td align="left">&nbsp;&nbsp;GBP</td>
<td align="right">1</td>
<td>&nbsp;&nbsp;Фунт стерлингов Соединенного королевства</td>
 
<td align="right">44,8444</td></tr>
<tr><td align="right">203</td>
<td align="left">&nbsp;&nbsp;CZK</td>
<td align="right">10</td>
<td>&nbsp;&nbsp;Чешских крон</td>
<td align="right">15,6762</td></tr>
<tr><td align="right">752</td>
<td align="left">&nbsp;&nbsp;SEK</td>
<td align="right">10</td>
 
<td>&nbsp;&nbsp;Шведских крон</td>
<td align="right">41,7313</td></tr>
<tr><td align="right">756</td>
<td align="left">&nbsp;&nbsp;CHF</td>
<td align="right">1</td>
<td>&nbsp;&nbsp;Швейцарский франк</td>
<td align="right">27,6854</td></tr>
<tr><td align="right">233</td>
<td align="left">&nbsp;&nbsp;EEK</td>
 
<td align="right">10</td>
<td>&nbsp;&nbsp;Эстонских крон</td>
<td align="right">25,8906</td></tr>
<tr><td align="right">710</td>
<td align="left">&nbsp;&nbsp;ZAR</td>
<td align="right">10</td>
<td>&nbsp;&nbsp;Южноафриканских рэндов</td>
<td align="right">39,9858</td></tr>
<tr><td align="right">392</td>
 
<td align="left">&nbsp;&nbsp;JPY</td>
<td align="right">100</td>
<td>&nbsp;&nbsp;Японских иен</td>
<td align="right">33,4173</td></tr>
</table>
 
    
<table border="0" cellpadding="0" cellspacing="0" width="100%">
            <tr>
                <td><hr/>
                </td>
 
            </tr>
            <tr>
                <td height="6"><br>
                </td>
            </tr>
            <tr>
                <td align="middle"><b>Адрес:</b> 107016, Москва, ул. Неглинная, 12; 
            <b>Тел.:</b> (495) 771&nbsp;91&nbsp;00; <b>Факс:</b> (495) 621&nbsp;64&nbsp;65; 
            <b>E-mail:</b> <a  href="mailto:webmaster@www.cbr.ru">webmaster@www.cbr.ru</a><br/>Copyright ©  2000-2012 Банк России<br/></td>
 
<tr>
<td align="center">
 
<script type="text/javascript">
 
  var _gaq = _gaq || [];
  _gaq.push(['_setAccount', 'UA-22609725-1']);
  _gaq.push(['_trackPageview']);
 
  (function() {
    var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;
    ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';
    var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);
  })();
 
</script>
 
 
<!-- Yandex.Metrika counter -->
<div style="display:none;"><script type="text/javascript">
(function(w, c) {
    (w[c] = w[c] || []).push(function() {
        try {
            w.yaCounter5774506 = new Ya.Metrika(5774506);
             yaCounter5774506.clickmap(true);
             yaCounter5774506.trackLinks(true);
        
        } catch(e) { }
    });
})(window, 'yandex_metrika_callbacks');
</script></div>
<script src="//mc.yandex.ru/metrika/watch.js" type="text/javascript" defer="defer"></script>
<noscript><div><img src="//mc.yandex.ru/watch/5774506" style="position:absolute; left:-9999px;" alt="" /></div></noscript>
<!-- /Yandex.Metrika counter -->
 
 
<!--begin of Top100-->
<a href="http://top100.rambler.ru/top100/"><img src="http://counter.rambler.ru/top100.cnt?8896" alt="Rambler's Top100" width="1" height="1" border="0"></a>
<a href="http://top100.rambler.ru/top100/">
<img src="http://images.rambler.ru/top100/w7.gif" alt="Rambler's Top100" width="88" height="31" border="0"></a>
<!--end of Top100 code-->
 
 
</td>
            </tr>
        </table>
    </body>
</html>


мне нужно что вы объяснили как найти нужные данные если допустим на сайте код такой:

HTML5
1
2
3
4
5
6
7
8
9
10
<td>&nbsp;&nbsp;Доллар США</td>
                                  <td align="right">29,8366</td></tr>
<tr><td align="right">978</td>
<td align="left">&nbsp;&nbsp;EUR</td>
<td align="right">1</td>
<td>&nbsp;&nbsp;Евро</td>
                                  <td align="right">40,5211</td></tr>
<tr><td align="right">356</td>
<td align="left">&nbsp;&nbsp;INR</td>
<td align="right">100</td>
Проблема в том что строчка которая идет после "Доллар США"
начинается не с самого края а имеет отступ.

и в этом коде
C#
1
tring pattern = "Доллар США</td>\r\n<td align=\"right\">(.*)</td>";
я не знаю как написать что после "Доллар США</td>\r\n"тут надо вставить отступ"<td align=\"right\">(.*)</td>";
0
1 / 1 / 1
Регистрация: 01.03.2012
Сообщений: 12
02.03.2012, 13:17 6
C#
1
string pattern = "Доллар\\s+США\\s*</td>[^<]*?<td[^>]+?>\\s*(\\d+(?:,\\d+)*)\\s*</td>";
[^<]*? эта комбинация означает, что могут быть любые символы до открывающего тега. * даёт знать что символов может и не быть.
0
1 / 1 / 0
Регистрация: 01.03.2012
Сообщений: 52
03.03.2012, 11:09  [ТС] 7
Цитата Сообщение от d3v1l Посмотреть сообщение
C#
1
string pattern = "Доллар\\s+США\\s*</td>[^<]*?<td[^>]+?>\\s*(\\d+(?:,\\d+)*)\\s*</td>";
[^<]*? эта комбинация означает, что могут быть любые символы до открывающего тега. * даёт знать что символов может и не быть.
Если не сложно можно расписать что за что отвечает...
0
14 / 14 / 3
Регистрация: 18.02.2011
Сообщений: 53
04.03.2012, 00:12 8
попробуйте поискать информацию тут
 Комментарий модератора 
Не отсылайте других пользователей в поиск и избегайте ссылок на поисковые системы (Google, Yandex и др.). Самостоятельно найдите ответ на вопрос и разместите его на форуме
0
1 / 1 / 1
Регистрация: 01.03.2012
Сообщений: 12
08.03.2012, 15:34 9
Цитата Сообщение от Sendello Посмотреть сообщение
Если не сложно можно расписать что за что отвечает...
^ - начало строки
$ - конец строки

\s - невидимый символ, т.е. пробел, табуляция
\S - это противоположность \s , т.е. любой видимый символ

\d - любая цифра, от 1 до 9
\D - любой символ, только не цифра

\w - любой символ (цифра, буква, _ символ) но не пробельный символ, на подобии \S
\W - противоположность \w

. - один произвольный символ


* - повторяется 0 или большее число раз
+ - повторяется 1 или большее число раз
{n} - повторяется n раз
{n,m} - не меньше n, но и не больше m

() - группировка
(?: ) - невидимая группировка

ну соответственно это можно комбинировать..

т.е. если вывести одно число целиком и оно точно всегда есть:
\d+
1 слово целиком
\w+

небольшой пример представления валюты 1,500.20 USD

(\d+(?:,\d+)*(?:.\d+)*\s+\w{3}) это регулярное выражение съест любое число (50, 50.20, 1,200.50, 1,200,240.50... и т.п.)

это далеко не всё, лучше поискать соответствующую книгу и почитать об этом ...
0
1 / 1 / 0
Регистрация: 01.03.2012
Сообщений: 52
09.03.2012, 00:11  [ТС] 10
d3v1l, Спасибо большое я нашел сайт где можно проверить что до как. Огромное спасибо за помощь!
0
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
09.03.2012, 00:11

Заказываю контрольные, курсовые, дипломные и любые другие студенческие работы здесь.

Написать вычислительную программу по приложенной конструкции
программа Z; переменные y, k: вещественные; i, n: целые; ввод(k); ввод(n); цикл i от 1 до n...

Написать программу, полностью аналогичную приложенной
Здравствуйте! Требуется написать программу полностью аналогичную данной (приложил в аттач)...

Правильно ли расставлены связи в приложенной базе данных
Добрый день, Я еще новичок в этом деле, и поэтому хотел бы попросить вас о трех вещах: 1....

Вывести элементы массива, заданные по приложенной формуле, в виде спирали (C++ -> C#)
Доброго времени суток! Формучане, выручайте, помогите, пожалуйста, переписать прогу, которая будет...

Прошу, пожалуйста, проверить код согласно приложенной методике. В программировании я новичок
uses crt; var V, a, n, b, k, c, V1, d, h, c1, z, V2, c2, T, A1, W, y, s, F, g: real; begin if...

Обработка строки. Как вырезать из имеющейся строки определенные символы
Имеется строка {текст} Как получить текст без {}?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2020, vBulletin Solutions, Inc.