Форум программистов, компьютерный форум, киберфорум
Наши страницы
C# .NET
Войти
Регистрация
Восстановить пароль
 
Рейтинг 4.50/4: Рейтинг темы: голосов - 4, средняя оценка - 4.50
JoKeR_13
0 / 0 / 0
Регистрация: 22.07.2013
Сообщений: 11
1

Парсер HTML документа

02.10.2015, 11:40. Просмотров 755. Ответов 5
Метки нет (Все метки)

Доброго суток!

Есть необходимость парсить HTML для этих целей хотел использовать System.Net.WebRequest (можно указать настройки прокси). Но столкнулся с проблемой: на странице есть java script, формирующий основной контент. Естественно он не выполняется и в HTML не попадает нужная информация.
Пробовал через webBrowser1.Navigate (при этом прокси прописано в настройках систему), но прокся не пускает запрос просит авторизацию.
Прошу совета как лучше получить код HTML, в котором часть контента формируется скриптом.
0
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
02.10.2015, 11:40
Ответы с готовыми решениями:

html Парсер
Добрый вечера! Посоветуйте пожалуйста какой нибудь html парсер на C#. Прогуглил, ничего не нашел....

HTML парсер
Доброе время суток. Проблема такова: Читаю с помощью WebClient хтмл, сайта. Нахожу тайтл с...

Парсер html страниц
Возникают какие-то странные ошибки при парсинге страниц. Бьюсь над ними уже долго, никак не могу...

html парсер (как обойти защиту сайта)
Здравствуйте! Столкнулся с такой проблемой, что через некоторое время сайт блокирует меня (мой...

Как лучше реализовать парсер HTML/XML, CSS, JavaScript?
Пишу свою интегрированную среду разработки для HTML, CSS и JavaScript. Считаю необходимым...

5
Hemicide
118 / 111 / 62
Регистрация: 27.07.2014
Сообщений: 225
02.10.2015, 19:03 2
JoKeR_13, что за ресурс? Посмотрим.
0
JoKeR_13
0 / 0 / 0
Регистрация: 22.07.2013
Сообщений: 11
02.10.2015, 19:15  [ТС] 3
http://www.lexmark.com/ru_RU/common/mce-search.shtml?text="+ textBox1.Text.Replace(" ", "+")
0
Hopeco
16 / 16 / 8
Регистрация: 18.03.2014
Сообщений: 268
09.10.2015, 10:39 4
JoKeR_13, парсит все названия или что там у вас
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
using System;
using System.Collections.Generic;
using System.IO;
using System.Net;
 
namespace Lexmark
{
    class Program
    {
        static List<string> Substrings(string left, string right, string str)
        {
            List<string> returnData = new List<string>();
            string tmp = str;
            while (tmp.IndexOf(left) >= 0 && tmp.IndexOf(right) >= 0)
            {
                tmp = tmp.Substring(tmp.IndexOf(left));
                returnData.Add(tmp.Substring(tmp.IndexOf(left) + left.Length, tmp.IndexOf(right) -(tmp.IndexOf(left) + left.Length)));
                tmp = tmp.Substring(tmp.IndexOf(right) + right.Length);
            }
 
            return returnData;
        }
 
        static void Main(string[] args)
        {
            Console.Write("Ваш запрос: ");
            string uri = "http://uiengine.lexmark.com/search/?callback=jQuery1102023639138462021947_1444374087546&locale=ru_RU&text=*"+Console.ReadLine()+"*&max=10&category=&_=1444374087547";
            Console.Clear();
 
            WebRequest request = WebRequest.Create(uri);
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            Stream dataStream = response.GetResponseStream();
            StreamReader reader = new StreamReader(dataStream);
            string str = reader.ReadToEnd();
 
            foreach (string str1 in Substrings(""title": "", "", "", str))
                Console.WriteLine(str1);
 
 
            reader.Close();
            dataStream.Close();
            response.Close();
 
            Console.ReadLine();
        }
    }
}
Думаю для вас будет проблемно парсить именно html код так как ответ от сервера хранится в виде json. Остальное доделаете сами.

Добавлено через 12 минут
Вот готовый код парсит ссылки, заголовки, описание:
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
using System;
using System.Collections.Generic;
using System.IO;
using System.Net;
 
namespace Lexmark
{
    class Program
    {
        static List<string> Substrings(string left, string right, string str)
        {
            List<string> returnData = new List<string>();
            string tmp = str;
            try
            {
                while (tmp.IndexOf(left) >= 0 && tmp.IndexOf(right) >= 0)
                {
                    tmp = tmp.Substring(tmp.IndexOf(left));
                    returnData.Add(tmp.Substring(tmp.IndexOf(left) + left.Length, tmp.IndexOf(right) - (tmp.IndexOf(left) + left.Length)));
                    tmp = tmp.Substring(tmp.IndexOf(right) + right.Length);
                }
            }
            catch (Exception) { returnData.Add("Ошибка в Substrings. Удачи в поисках!"); }
 
            return returnData;
        }
 
        static void Main(string[] args)
        {
            Console.Write("Ваш запрос: ");
            string uri = "http://uiengine.lexmark.com/search/?callback=jQuery1102023639138462021947_1444374087546&locale=ru_RU&text=*"+Console.ReadLine()+"*&max=10&category=&_=1444374087547";
            Console.Clear();
 
            WebRequest request = WebRequest.Create(uri);
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            Stream dataStream = response.GetResponseStream();
            StreamReader reader = new StreamReader(dataStream);
            string str = reader.ReadToEnd();
 
 
            // Заголовки
            foreach (string str1 in Substrings("\"title\": \"", "\", \"", str))
                Console.WriteLine(str1);
            Console.WriteLine();
            // Описание
            foreach (string str1 in Substrings("\"name": \"description\", \"value": \"", "\"}", str))
                Console.WriteLine(str1 == string.Empty ? "undefined" : str1);
            Console.WriteLine();
            // Ссылки
            foreach (string str1 in Substrings("\"url\": \"", "\", \"", str))
                Console.WriteLine(str1);
            Console.WriteLine();
 
 
            reader.Close();
            dataStream.Close();
            response.Close();
 
            Console.ReadLine();
        }
    }
}
0
Hemicide
118 / 111 / 62
Регистрация: 27.07.2014
Сообщений: 225
12.10.2015, 16:59 5
Цитата Сообщение от Hopeco Посмотреть сообщение
Думаю для вас будет проблемно парсить именно html код так как ответ от сервера хранится в виде json. Остальное доделаете сами.
Именно в этом и кроется проблема.
JoKeR_13, для того, чтобы получить весь HTML код, все скрипты должны выполнятся на клиентской стороне, т.е. локально у вас. Для этого нужен веб-движок способный обрабатывать такие запросы. И тут придется использовать либо стандартный компонент WebBrowser, либо что-то стороннее.
0
Hopeco
16 / 16 / 8
Регистрация: 18.03.2014
Сообщений: 268
14.10.2015, 15:36 6
Hemicide, основная проблема при использовании WebBrowser это DocumentCompleted дожидается загрузки статистической части страницы, а вот загрузку динамической части надо каким-то образом определять.

Добавлено через 3 часа 18 минут
Hemicide,
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
using System;
using System.Threading.Tasks;
using System.Windows.Forms;
 
namespace WindowsFormsApplication1
{
    public partial class Form1 : Form
    {
        private WebBrowser client;
        private delegate void Del(string text);
 
        public Form1()
        {
            InitializeComponent();
        }
 
        private void buttonStart_Click(object sender, EventArgs e)
        {
            client = new WebBrowser();
 
            client.DocumentCompleted += Client_DocumentCompleted;
            client.ScriptErrorsSuppressed = true;
 
            client.Navigate("http://www.lexmark.com/ru_RU/common/mce-search.shtml?text=" + textBoxText.Text);
        }
 
        private async void Client_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
        {
            await Wait();
        }
 
        private Task Wait()
        {
            return Task.Run(async () =>
            {
                while ((HtmlElement)client.Invoke(new Func<HtmlElement>(() => client.Document.GetElementById("results-body"))) == null)
                    await Task.Delay(100);
                textBoxHtml.Invoke(new Del((s) => textBoxHtml.Text = s), (string)client.Invoke(new Func<string>(() => client.Document.GetElementById("results-body").OuterHtml)));
            });
        }
    }
}
Должно быть на форме два поля textBoxHtml и textBoxText и кнопка buttonStart
1
14.10.2015, 15:36
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
14.10.2015, 15:36

Печать html документа.
Без участия WebBrowser. Возможна? И, желательно, чтоб колонтитулы не печатало. Наподобие &quot;Страница...

Конвертирование HTML документа в XML
Хелп плиз!! Срочно!!! Подскажите и покажите, какими способами можно легко конвертнуть HTML...

Парсинг html документа с js кодом
Здравствуйте, Возникла задача вытащить из кода &lt;script language=&quot;JavaScript1.2&quot;...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2019, vBulletin Solutions, Inc.
Рейтинг@Mail.ru