С Новым годом! Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/8: Рейтинг темы: голосов - 8, средняя оценка - 4.75
12 / 12 / 1
Регистрация: 18.06.2011
Сообщений: 435

Как и чем спарсить данные

20.12.2011, 14:57. Показов 1527. Ответов 8
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Парсю страницы. Как и главное чем будет спарсить страницы.Можно ли использовать регулярки или есть алтернатива, которая быстрее это сделает. Таких данных на странице от 10 до 30 как попадется

HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
<table class="t">
                                <tbody>
                                  <tr>
                                    <td class="cct_t">адрес:</td>
                                    <td>Саратов, Петра 1, 5</td>
                                  </tr>
                                  <tr>
                                    <td class="cct_t">телефон:</td>
                                    <td>+7 999 11-22-33</td>
                                  </tr>
                                  <tr>
                                    <td class="cct_t">e-mail:</td>
                                    <td>
                                      <a href="mailto:super@mail.ru">uper@mail.ru</a>
                                    </td>
                                  </tr>
                                  <tr>
                                    <td class="cct_t">адрес сайта:</td>
                                    <td>
                                      <a href="http://super.biz" target="_blank">http://super.biz</a>
                                    </td>
                                  </tr>
                                  <tr>
                                    <td class="cct_t1">рейтинг:</td>
                                    <td class="cct_t2">
                                      <img src="images/r_a.gif" alt="AD">
                                      <img src="images/r_a.gif" alt="AD">
                                      <img src="images/r_a.gif" alt="AD">
                                      <img src="images/r_a.gif" alt="AD">
                                      <img src="images/r_a.gif" alt="AD">
                                    </td>
                                  </tr>
                                </tbody>
                              </table>
                            </div>
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
20.12.2011, 14:57
Ответы с готовыми решениями:

Как спарсить данные из текста
&lt;li&gt;Ответ 1 &lt;li&gt;Ответ 2 &lt;li&gt;&lt;strong&gt;Ответ 3;.&lt;/strong&gt; &lt;/li&gt; &lt;/li&gt;&lt;/li&gt;&lt;/ol&gt; В итоге должно получиться Ответ 1 Ответ 2 ...

Как спарсить данные из ответа сервера?
Нужно спарсить необходимое значение из ответа от сервера. Пример ответа: load: site.ru/img.png| Нужно что бы получилось:...

JSON как спарсить данные из ответа сервера
Изучаю C#, столкнулся с проблемой От сервера приходит вот такой ответ, нужно из него вытащить все id и name и записать по отдельным...

8
42 / 36 / 2
Регистрация: 18.12.2011
Сообщений: 113
20.12.2011, 15:10
А разве регулярки медленно работают?
<30 вхождений, много?)
Хотя если уж так неймется, можно поюзать классы для работы с Xml
Впрочем сильно сомневаюсь что это много быстрее.
0
12 / 12 / 1
Регистрация: 18.06.2011
Сообщений: 435
20.12.2011, 15:31  [ТС]
Это ж не xml вроде. html
0
774 / 554 / 80
Регистрация: 03.07.2011
Сообщений: 1,020
20.12.2011, 15:40
Альтернатива webBrower
Методы для работы доступны через Document
C#
1
2
3
webBrowser1.Document.GetElementsByTagName("a");
webBrowser1.Document.GetElementById("**").SetAttribute("value", "admin");
webBrowser1.Document.GetElementById("**").GetAttribute("name");
1
12 / 12 / 1
Регистрация: 18.06.2011
Сообщений: 435
20.12.2011, 15:54  [ТС]
Vitall, он медленно не будет выполняться*?

Добавлено через 2 минуты
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
string pattern = "e-mail:(.*)";
 
            string html = string.Empty;
          
            HttpWebRequest myRequest = (HttpWebRequest)HttpWebRequest.Create(url);
            HttpWebResponse myResponse = (HttpWebResponse)myRequest.GetResponse();
            StreamReader sr = new StreamReader(myResponse.GetResponseStream(), Encoding.GetEncoding(1251));
            html = sr.ReadToEnd();
            Match res;
            res = Regex.Match(html, pattern);
            MessageBox.Show(res.Groups[1].ToString());
           
            return res.Groups[1].ToString();
Это код выводит текст который идет после email:, то есть теги </td>
Как сделать чтобырегулярка парсила в таком формате email: super@mail.ru ?

HTML5
1
2
3
4
    <td class="cct_t">e-mail:</td>
    <td>
        <a href="mailto:super@mail.ru">super@mail.ru</a>
    </td>
0
42 / 36 / 2
Регистрация: 18.12.2011
Сообщений: 113
20.12.2011, 16:52
Radzhab а какая в этом случае разница?))))
XmlDocument, XDocument и прочие аналогичные классы решат вашу проблему за несколько минут
0
774 / 554 / 80
Регистрация: 03.07.2011
Сообщений: 1,020
20.12.2011, 17:46
Цитата Сообщение от Radzhab Посмотреть сообщение
он медленно не будет выполняться*?
Radzhab Это надо определить экспериментальным путем какой их способов более производителен .
0
 Аватар для sau
2773 / 2073 / 386
Регистрация: 22.07.2011
Сообщений: 7,820
20.12.2011, 17:50
Млин, там разница в сотых долях, вы даже не заметите.
Если xhtml то можно XDocument-XmlDocument, иначе WebBrowser или Regex или IHtmlDocument
0
12 / 12 / 1
Регистрация: 18.06.2011
Сообщений: 435
21.12.2011, 15:29  [ТС]
Как сделать чтобырегулярка парсила в таком формате e-mail: super@mail.ru ?

C#
1
2
3
4
    <td class="cct_t">e-mail:</td>
    <td>
        <a href="mailto:super@mail.ru">super@mail.ru</a>
    </td>
Добавлено через 19 часов 25 минут
Как сделать чтобы регулярки работали тока в одном классе
C#
1
2
3
4
<td class="cct_t">e-mail:</td>
    <td>
        <a href="mailto:super@mail.ru">super@mail.ru</a>
    </td>
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
21.12.2011, 15:29
Помогаю со студенческими работами здесь

Как спарсить данные тега
Всем доброго времени суток! Подскажите как спарсить текст вопроса на странице? (страница во вложении) пробовал вот так ничего не...

Как спарсить POST данные в Google Plus
Здравствуйте. В Google + (Plus) есть community (сообщества), необходимо вступить туда программно. (Пример группы:...

Как спарсить некоторые данные из JSON
Приветствую! есть файл в формате JSON, вот пример его кода =&gt; 34339 =&gt; Alexander =&gt; Andreevich =&gt;...

Как спарсить данные вот из этого файла?
Конкретно нужно получить в переменные: значение code и число 2.6421. Чтобы было две переменные, значения которых были: USD 2.6421 ...

Подскажите - чем спарсить НЧ запросы?
Господа, подскажите пожалуйста - какой софтинкой или сервисом можно спарсить много - много НЧ запросов для сайта? Валялся на винте...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её. Последовательность действий:. . .
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru