Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/8: Рейтинг темы: голосов - 8, средняя оценка - 4.75
12 / 12 / 1
Регистрация: 18.06.2011
Сообщений: 435

Как и чем спарсить данные

20.12.2011, 14:57. Показов 1540. Ответов 8
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Парсю страницы. Как и главное чем будет спарсить страницы.Можно ли использовать регулярки или есть алтернатива, которая быстрее это сделает. Таких данных на странице от 10 до 30 как попадется

HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
<table class="t">
                                <tbody>
                                  <tr>
                                    <td class="cct_t">адрес:</td>
                                    <td>Саратов, Петра 1, 5</td>
                                  </tr>
                                  <tr>
                                    <td class="cct_t">телефон:</td>
                                    <td>+7 999 11-22-33</td>
                                  </tr>
                                  <tr>
                                    <td class="cct_t">e-mail:</td>
                                    <td>
                                      <a href="mailto:super@mail.ru">uper@mail.ru</a>
                                    </td>
                                  </tr>
                                  <tr>
                                    <td class="cct_t">адрес сайта:</td>
                                    <td>
                                      <a href="http://super.biz" target="_blank">http://super.biz</a>
                                    </td>
                                  </tr>
                                  <tr>
                                    <td class="cct_t1">рейтинг:</td>
                                    <td class="cct_t2">
                                      <img src="images/r_a.gif" alt="AD">
                                      <img src="images/r_a.gif" alt="AD">
                                      <img src="images/r_a.gif" alt="AD">
                                      <img src="images/r_a.gif" alt="AD">
                                      <img src="images/r_a.gif" alt="AD">
                                    </td>
                                  </tr>
                                </tbody>
                              </table>
                            </div>
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
20.12.2011, 14:57
Ответы с готовыми решениями:

Как спарсить данные из текста
&lt;li&gt;Ответ 1 &lt;li&gt;Ответ 2 &lt;li&gt;&lt;strong&gt;Ответ 3;.&lt;/strong&gt; &lt;/li&gt; &lt;/li&gt;&lt;/li&gt;&lt;/ol&gt; В итоге должно получиться Ответ 1 Ответ 2 ...

Как спарсить данные из ответа сервера?
Нужно спарсить необходимое значение из ответа от сервера. Пример ответа: load: site.ru/img.png| Нужно что бы получилось:...

JSON как спарсить данные из ответа сервера
Изучаю C#, столкнулся с проблемой От сервера приходит вот такой ответ, нужно из него вытащить все id и name и записать по отдельным...

8
42 / 36 / 2
Регистрация: 18.12.2011
Сообщений: 113
20.12.2011, 15:10
А разве регулярки медленно работают?
<30 вхождений, много?)
Хотя если уж так неймется, можно поюзать классы для работы с Xml
Впрочем сильно сомневаюсь что это много быстрее.
0
12 / 12 / 1
Регистрация: 18.06.2011
Сообщений: 435
20.12.2011, 15:31  [ТС]
Это ж не xml вроде. html
0
774 / 554 / 80
Регистрация: 03.07.2011
Сообщений: 1,020
20.12.2011, 15:40
Альтернатива webBrower
Методы для работы доступны через Document
C#
1
2
3
webBrowser1.Document.GetElementsByTagName("a");
webBrowser1.Document.GetElementById("**").SetAttribute("value", "admin");
webBrowser1.Document.GetElementById("**").GetAttribute("name");
1
12 / 12 / 1
Регистрация: 18.06.2011
Сообщений: 435
20.12.2011, 15:54  [ТС]
Vitall, он медленно не будет выполняться*?

Добавлено через 2 минуты
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
string pattern = "e-mail:(.*)";
 
            string html = string.Empty;
          
            HttpWebRequest myRequest = (HttpWebRequest)HttpWebRequest.Create(url);
            HttpWebResponse myResponse = (HttpWebResponse)myRequest.GetResponse();
            StreamReader sr = new StreamReader(myResponse.GetResponseStream(), Encoding.GetEncoding(1251));
            html = sr.ReadToEnd();
            Match res;
            res = Regex.Match(html, pattern);
            MessageBox.Show(res.Groups[1].ToString());
           
            return res.Groups[1].ToString();
Это код выводит текст который идет после email:, то есть теги </td>
Как сделать чтобырегулярка парсила в таком формате email: super@mail.ru ?

HTML5
1
2
3
4
    <td class="cct_t">e-mail:</td>
    <td>
        <a href="mailto:super@mail.ru">super@mail.ru</a>
    </td>
0
42 / 36 / 2
Регистрация: 18.12.2011
Сообщений: 113
20.12.2011, 16:52
Radzhab а какая в этом случае разница?))))
XmlDocument, XDocument и прочие аналогичные классы решат вашу проблему за несколько минут
0
774 / 554 / 80
Регистрация: 03.07.2011
Сообщений: 1,020
20.12.2011, 17:46
Цитата Сообщение от Radzhab Посмотреть сообщение
он медленно не будет выполняться*?
Radzhab Это надо определить экспериментальным путем какой их способов более производителен .
0
 Аватар для sau
2773 / 2073 / 386
Регистрация: 22.07.2011
Сообщений: 7,820
20.12.2011, 17:50
Млин, там разница в сотых долях, вы даже не заметите.
Если xhtml то можно XDocument-XmlDocument, иначе WebBrowser или Regex или IHtmlDocument
0
12 / 12 / 1
Регистрация: 18.06.2011
Сообщений: 435
21.12.2011, 15:29  [ТС]
Как сделать чтобырегулярка парсила в таком формате e-mail: super@mail.ru ?

C#
1
2
3
4
    <td class="cct_t">e-mail:</td>
    <td>
        <a href="mailto:super@mail.ru">super@mail.ru</a>
    </td>
Добавлено через 19 часов 25 минут
Как сделать чтобы регулярки работали тока в одном классе
C#
1
2
3
4
<td class="cct_t">e-mail:</td>
    <td>
        <a href="mailto:super@mail.ru">super@mail.ru</a>
    </td>
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
21.12.2011, 15:29
Помогаю со студенческими работами здесь

Как спарсить данные тега
Всем доброго времени суток! Подскажите как спарсить текст вопроса на странице? (страница во вложении) пробовал вот так ничего не...

Как спарсить POST данные в Google Plus
Здравствуйте. В Google + (Plus) есть community (сообщества), необходимо вступить туда программно. (Пример группы:...

Как спарсить некоторые данные из JSON
Приветствую! есть файл в формате JSON, вот пример его кода =&gt; 34339 =&gt; Alexander =&gt; Andreevich =&gt;...

Как спарсить данные вот из этого файла?
Конкретно нужно получить в переменные: значение code и число 2.6421. Чтобы было две переменные, значения которых были: USD 2.6421 ...

Подскажите - чем спарсить НЧ запросы?
Господа, подскажите пожалуйста - какой софтинкой или сервисом можно спарсить много - много НЧ запросов для сайта? Валялся на винте...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru