Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.88/8: Рейтинг темы: голосов - 8, средняя оценка - 4.88
0 / 0 / 0
Регистрация: 22.07.2013
Сообщений: 11

Парсер HTML документа

02.10.2015, 11:40. Показов 1696. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Доброго суток!

Есть необходимость парсить HTML для этих целей хотел использовать System.Net.WebRequest (можно указать настройки прокси). Но столкнулся с проблемой: на странице есть java script, формирующий основной контент. Естественно он не выполняется и в HTML не попадает нужная информация.
Пробовал через webBrowser1.Navigate (при этом прокси прописано в настройках систему), но прокся не пускает запрос просит авторизацию.
Прошу совета как лучше получить код HTML, в котором часть контента формируется скриптом.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
02.10.2015, 11:40
Ответы с готовыми решениями:

html Парсер
Добрый вечера! Посоветуйте пожалуйста какой нибудь html парсер на C#. Прогуглил, ничего не нашел. Заранее спасибо.

HTML парсер
Доброе время суток. Проблема такова: Читаю с помощью WebClient хтмл, сайта. Нахожу тайтл с помощью регулярных выражений, если...

Парсер html страниц
Возникают какие-то странные ошибки при парсинге страниц. Бьюсь над ними уже долго, никак не могу найти в чем причина. И еще такая...

5
 Аватар для Hemicide
121 / 114 / 62
Регистрация: 27.07.2014
Сообщений: 225
02.10.2015, 19:03
JoKeR_13, что за ресурс? Посмотрим.
0
0 / 0 / 0
Регистрация: 22.07.2013
Сообщений: 11
02.10.2015, 19:15  [ТС]
http://www.lexmark.com/ru_RU/common/mce-search.shtml?text="+ textBox1.Text.Replace(" ", "+")
0
16 / 16 / 8
Регистрация: 18.03.2014
Сообщений: 268
09.10.2015, 10:39
JoKeR_13, парсит все названия или что там у вас
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
using System;
using System.Collections.Generic;
using System.IO;
using System.Net;
 
namespace Lexmark
{
    class Program
    {
        static List<string> Substrings(string left, string right, string str)
        {
            List<string> returnData = new List<string>();
            string tmp = str;
            while (tmp.IndexOf(left) >= 0 && tmp.IndexOf(right) >= 0)
            {
                tmp = tmp.Substring(tmp.IndexOf(left));
                returnData.Add(tmp.Substring(tmp.IndexOf(left) + left.Length, tmp.IndexOf(right) -(tmp.IndexOf(left) + left.Length)));
                tmp = tmp.Substring(tmp.IndexOf(right) + right.Length);
            }
 
            return returnData;
        }
 
        static void Main(string[] args)
        {
            Console.Write("Ваш запрос: ");
            string uri = "http://uiengine.lexmark.com/search/?callback=jQuery1102023639138462021947_1444374087546&locale=ru_RU&text=*"+Console.ReadLine()+"*&max=10&category=&_=1444374087547";
            Console.Clear();
 
            WebRequest request = WebRequest.Create(uri);
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            Stream dataStream = response.GetResponseStream();
            StreamReader reader = new StreamReader(dataStream);
            string str = reader.ReadToEnd();
 
            foreach (string str1 in Substrings(""title": "", "", "", str))
                Console.WriteLine(str1);
 
 
            reader.Close();
            dataStream.Close();
            response.Close();
 
            Console.ReadLine();
        }
    }
}
Думаю для вас будет проблемно парсить именно html код так как ответ от сервера хранится в виде json. Остальное доделаете сами.

Добавлено через 12 минут
Вот готовый код парсит ссылки, заголовки, описание:
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
using System;
using System.Collections.Generic;
using System.IO;
using System.Net;
 
namespace Lexmark
{
    class Program
    {
        static List<string> Substrings(string left, string right, string str)
        {
            List<string> returnData = new List<string>();
            string tmp = str;
            try
            {
                while (tmp.IndexOf(left) >= 0 && tmp.IndexOf(right) >= 0)
                {
                    tmp = tmp.Substring(tmp.IndexOf(left));
                    returnData.Add(tmp.Substring(tmp.IndexOf(left) + left.Length, tmp.IndexOf(right) - (tmp.IndexOf(left) + left.Length)));
                    tmp = tmp.Substring(tmp.IndexOf(right) + right.Length);
                }
            }
            catch (Exception) { returnData.Add("Ошибка в Substrings. Удачи в поисках!"); }
 
            return returnData;
        }
 
        static void Main(string[] args)
        {
            Console.Write("Ваш запрос: ");
            string uri = "http://uiengine.lexmark.com/search/?callback=jQuery1102023639138462021947_1444374087546&locale=ru_RU&text=*"+Console.ReadLine()+"*&max=10&category=&_=1444374087547";
            Console.Clear();
 
            WebRequest request = WebRequest.Create(uri);
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            Stream dataStream = response.GetResponseStream();
            StreamReader reader = new StreamReader(dataStream);
            string str = reader.ReadToEnd();
 
 
            // Заголовки
            foreach (string str1 in Substrings("\"title\": \"", "\", \"", str))
                Console.WriteLine(str1);
            Console.WriteLine();
            // Описание
            foreach (string str1 in Substrings("\"name": \"description\", \"value": \"", "\"}", str))
                Console.WriteLine(str1 == string.Empty ? "undefined" : str1);
            Console.WriteLine();
            // Ссылки
            foreach (string str1 in Substrings("\"url\": \"", "\", \"", str))
                Console.WriteLine(str1);
            Console.WriteLine();
 
 
            reader.Close();
            dataStream.Close();
            response.Close();
 
            Console.ReadLine();
        }
    }
}
0
 Аватар для Hemicide
121 / 114 / 62
Регистрация: 27.07.2014
Сообщений: 225
12.10.2015, 16:59
Цитата Сообщение от Hopeco Посмотреть сообщение
Думаю для вас будет проблемно парсить именно html код так как ответ от сервера хранится в виде json. Остальное доделаете сами.
Именно в этом и кроется проблема.
JoKeR_13, для того, чтобы получить весь HTML код, все скрипты должны выполнятся на клиентской стороне, т.е. локально у вас. Для этого нужен веб-движок способный обрабатывать такие запросы. И тут придется использовать либо стандартный компонент WebBrowser, либо что-то стороннее.
0
16 / 16 / 8
Регистрация: 18.03.2014
Сообщений: 268
14.10.2015, 15:36
Hemicide, основная проблема при использовании WebBrowser это DocumentCompleted дожидается загрузки статистической части страницы, а вот загрузку динамической части надо каким-то образом определять.

Добавлено через 3 часа 18 минут
Hemicide,
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
using System;
using System.Threading.Tasks;
using System.Windows.Forms;
 
namespace WindowsFormsApplication1
{
    public partial class Form1 : Form
    {
        private WebBrowser client;
        private delegate void Del(string text);
 
        public Form1()
        {
            InitializeComponent();
        }
 
        private void buttonStart_Click(object sender, EventArgs e)
        {
            client = new WebBrowser();
 
            client.DocumentCompleted += Client_DocumentCompleted;
            client.ScriptErrorsSuppressed = true;
 
            client.Navigate("http://www.lexmark.com/ru_RU/common/mce-search.shtml?text=" + textBoxText.Text);
        }
 
        private async void Client_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
        {
            await Wait();
        }
 
        private Task Wait()
        {
            return Task.Run(async () =>
            {
                while ((HtmlElement)client.Invoke(new Func<HtmlElement>(() => client.Document.GetElementById("results-body"))) == null)
                    await Task.Delay(100);
                textBoxHtml.Invoke(new Del((s) => textBoxHtml.Text = s), (string)client.Invoke(new Func<string>(() => client.Document.GetElementById("results-body").OuterHtml)));
            });
        }
    }
}
Должно быть на форме два поля textBoxHtml и textBoxText и кнопка buttonStart
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
14.10.2015, 15:36
Помогаю со студенческими работами здесь

html парсер (как обойти защиту сайта)
Здравствуйте! Столкнулся с такой проблемой, что через некоторое время сайт блокирует меня (мой парсер), подскажите пожалуйста, как можно...

Парсер Word-файла с сохранением структуры документа, его стилей и картинок
Всем доброго времени суток! В универе дали задачку - написать программу, которая сможет считывать всё из доковского файла: стили текста,...

Парсер html
Здравствуйте, пытаюсь самостоятельно разбираться с парсингом html страницы, облазил все возможные темы, но так и не получилось до конца...

Парсер HTML строки
мне даны некоторое кол во строк пусть это будет: 1)&lt;link rel=&quot;alternate&quot; type=&quot;application/rss+xml&quot; title=&quot;Meduza — Все&quot;...

Парсер HTML-страницы после выполнения JS
всем привет... мне нужно парсить html страницу. Конечно вы скажете что тут сложного. Можно например так: HttpWebRequest myRequest =...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru