Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.69/13: Рейтинг темы: голосов - 13, средняя оценка - 4.69
1 / 1 / 0
Регистрация: 15.03.2018
Сообщений: 24

Как получить html код страницы и спарсить значение?

29.06.2018, 17:30. Показов 2641. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
подскажите как получить html код страницы и спарсить значение

Вот часть html

PHP/HTML
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
<script type="text/javascript">
    var gameSession = 'edca7e6833a0d98dd7aec45f84bd5c15';
    if (sessionStorage) {
        sessionStorage.setItem('gameSession', 'edca7e6833a0d98dd7aec45f84bd5c15');
    }
$(document).ready(function(){
    for (var i=1;i<=7;i++) {
        var j = i==5 ? 1001 : i;
        j = j==6 ? 1002 : j;
        j = j==7 ? 1003 : j;
        var alb = $.cookie('the_alertbox'+j);
        if (alb=='close') {
            $('#the_alertbox_div'+j).css('display','none');
        } else {
            $('#the_alertbox_div'+j).css('display','block');
            
        }
    }
});
нужно получить из var gameSession = 'edca7e6833a0d98dd7aec45f84bd5c15'; значение edca7e6833a0d98dd7aec45f84bd5c15
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
29.06.2018, 17:30
Ответы с готовыми решениями:

Как получить html-код страницы?
как получить html-код страницы методами js и потом его использовать в личных целях

Как получить код html-страницы
Здравствуйте. Знаю, что этот вопрос уже задавали на этом форуме, но я снова задаю, потому что там я не нашел своего ответа. И так. Я...

Как получить код HTML страницы?
КАК получить код HTML страницы в переменную, неиспользую OCX'ов Ну всмысле без Winsock msInet итп...

1
Эксперт JS
6496 / 3907 / 2006
Регистрация: 14.06.2018
Сообщений: 6,781
29.06.2018, 18:14
Лучший ответ Сообщение было отмечено alexz99 как решение

Решение

C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
using System;
using System.Text.RegularExpressions;
 
namespace Test_Regexp
{
    class Program
    {
        static void Main(string[] args)
        {
            var s = @"
<script type=""text/javascript"">
    var gameSession = 'edca7e6833a0d98dd7aec45f84bd5c15';
            if (sessionStorage)
            {
                sessionStorage.setItem('gameSession', 'edca7e6833a0d98dd7aec45f84bd5c15');
            }
$(document).ready(function(){
                for (var i = 1; i <= 7; i++)
                {
                    var j = i == 5 ? 1001 : i;
                    j = j == 6 ? 1002 : j;
                    j = j == 7 ? 1003 : j;
                    var alb = $.cookie('the_alertbox' + j);
                    if (alb == 'close')
                    {
            $('#the_alertbox_div' + j).css('display', 'none');
                    }
                    else
                    {
            $('#the_alertbox_div' + j).css('display', 'block');
 
                    }
                }
            });
            ";
 
            Match match = Regex.Match(s, @"\bvar\s+gameSession\s*=\s*[""'](?<txt>.+?)[""']");
            Console.WriteLine(match.Groups["txt"]);
            Console.ReadKey();
        }
    }
}
Добавлено через 29 минут
Эксперименты с определениями кодировок в WebClient и System.Net.Http.HttpClient
Получить html код страницы.
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
        private static async Task<string> DownloadPage_byWebClient(string addr)
        {
            /*
            Если хотите точно определить кодировку - лучше никогда не полагайтесь только на заголовок ответа сервера.
            Очень часто кодировка в заголовке ответа и реально используемая кодировка отличаются по различным причинам. 
            А ещё указание кодировки может вообще отсутствовать в заголовке ответа.
            <meta http-equiv="content-type"> - приоритетней HTTP-заголовков, и если он указан, то лучше верить ему. 
            Хотя он тоже не всегда корректен, да и может спокойно отсутствовать.
            В идеале нужно выполнить последовательно несколько действий:
            1. Посмотреть указанна ли кодировка в HTTP-заголовке Content-Type? Если указана - запоминаем.
            2. Если в начале содержимого есть BOM-байты - прекращаем поиски, 
            и в зависимости от их значений считаем кодировкой содержимого UTF-8, UTF-16, либо UTF-32
            3. Произвести парсинг HTML(временно используя в качестве кодировки ASCII), и если есть meta[http-equiv=content-type] 
            с указанной в нем кодировкой - заменяем им кодировку найденную на первом шаге
            4. Если по результатам 1-3 шагов кодировка не определена - продолжаем парсинг HTML, 
            вытаскиваем из него текстовое содержимое, и определяем его кодировку по результатам его эвристического анализа. 
            Для этого есть готовые проекты chardetsharp и NCharDet.
            Если жестко не задавать WebClient-у кодировку, то он определит её автоматически по 1 и 2 шагу. 
            Найденную кодировку он, к сожалению, никуда не записывает, а только использует её в своих внутренних методах.
             */
            /* 
           1. Загружать надо массив байтов, а не строку. 
           ( Тогда есть возможность сразу определить BOM. )
             */
 
            try
            {
                using (var client = new WebClient() { Encoding = Encoding.UTF8 })
                {
                    string result = "";
                    byte[] a = await client.DownloadDataTaskAsync(addr);
 
                    Encoding detectedBOM = DetectBOM(a);
 
                    if (detectedBOM == Encoding.Default)
                    {
                        string stringContentType = client.ResponseHeaders["Content-Type"];
                        if (stringContentType != null)
                        {
                            ContentType contentType = new ContentType(stringContentType);
 
                            if (contentType.CharSet != null && client.Encoding.WebName.ToLower() != contentType.CharSet.ToLower())
                                client.Encoding = Encoding.GetEncoding(contentType.CharSet);
                        }
 
                        result = client.Encoding.GetString(a);
 
                        // Кодировка в HTML5
                        Match match = Regex.Match(result, @"<meta\s+[^>]*?\s*charset=[""'](?<txt>.+?)[""']\s*/>");
 
                        if (!match.Success)
                        {
                            match = Regex.Match(result, @"<meta\s+[^>]*?\s*content=[""'][^>]*?charset=(?<txt>.+?);*\s*[""']");
                        }
                        if (match.Success && client.Encoding.WebName.ToLower() != match.Groups["txt"].Value.ToLower())
                        {
                            client.Encoding = Encoding.GetEncoding(match.Groups["txt"].Value);
                            result = client.Encoding.GetString(a);
                        }
                        return result;
                    }
                    else //detectedBOM
                    {
                        client.Encoding = detectedBOM;
                        result = client.Encoding.GetString(a);
                        return result;
                    }
 
                }
            }
            catch (Exception e)
            {
                throw new Exception(addr == null ? "null" : addr, e);
            }
        }
 
        private static async Task<string> DownloadPage(string addr)
        {
            /*
            Если хотите точно определить кодировку - лучше никогда не полагайтесь только на заголовок ответа сервера.
            Очень часто кодировка в заголовке ответа и реально используемая кодировка отличаются по различным причинам. 
            А ещё указание кодировки может вообще отсутствовать в заголовке ответа.
            <meta http-equiv="content-type"> - приоритетней HTTP-заголовков, и если он указан, то лучше верить ему. 
            Хотя он тоже не всегда корректен, да и может спокойно отсутствовать.
            В идеале нужно выполнить последовательно несколько действий:
            1. Посмотреть указанна ли кодировка в HTTP-заголовке Content-Type? Если указана - запоминаем.
            2. Если в начале содержимого есть BOM-байты - прекращаем поиски, 
            и в зависимости от их значений считаем кодировкой содержимого UTF-8, UTF-16, либо UTF-32
            3. Произвести парсинг HTML(временно используя в качестве кодировки ASCII), и если есть meta[http-equiv=content-type] 
            с указанной в нем кодировкой - заменяем им кодировку найденную на первом шаге
            4. Если по результатам 1-3 шагов кодировка не определена - продолжаем парсинг HTML, 
            вытаскиваем из него текстовое содержимое, и определяем его кодировку по результатам его эвристического анализа. 
            Для этого есть готовые проекты chardetsharp и NCharDet.
            Если жестко не задавать WebClient-у кодировку, то он определит её автоматически по 1 и 2 шагу. 
            Найденную кодировку он, к сожалению, никуда не записывает, а только использует её в своих внутренних методах.
             */
            /* 
           1. Загружать надо массив байтов, а не строку. 
           ( Тогда есть возможность сразу определить BOM. )
             */
            var client = new HttpClient();
            string result = "";
            try
            {
                HttpResponseMessage response = await client.GetAsync(addr);
 
                byte[] a = await response.Content.ReadAsByteArrayAsync();
 
                Encoding resultEncoding = Encoding.UTF8;
 
                Encoding detectedBOM = DetectBOM(a);
 
                if (detectedBOM == Encoding.Default)
                {
                    string stringContentType = response.Content.Headers.ContentType.CharSet;
 
                    #region Тестирование заголовков ответа.
                    //Console.WriteLine(stringContentType);
                    //// В нетипизированном списке заголовков отсутствует Content-Type
                    //foreach (var item in response.Headers)
                    //{
                    //    foreach (var item2 in item.Value)
                    //    {
                    //        Console.WriteLine($"{item.Key}: {item2}");
                    //    }
                    //}
                    //Console.WriteLine("---------------------");
                    //// Старый способ показать все заголовки
                    //string url = addr;
                    //var request = (HttpWebRequest)WebRequest.Create(url);
                    //var response2 = (HttpWebResponse)request.GetResponse();
                    ////var contentType = response2.Headers["Content-Type"];
                    ////Console.WriteLine(contentType);
                    //foreach (string item in response2.Headers)
                    //{
                    //        Console.WriteLine($"{item}: {response2.Headers[item]}");
                    //}
                    #endregion
 
                    if (stringContentType != null && resultEncoding.WebName.ToLower() != stringContentType.ToLower())
                    {
                        resultEncoding = Encoding.GetEncoding(stringContentType);
                    }
                    result = resultEncoding.GetString(a);
                    // Кодировка в HTML5
                    Match match = Regex.Match(result, @"<meta\s+[^>]*?\s*charset=[""'](?<txt>.+?)[""']\s*/>");
 
                    if (!match.Success)
                    {
                        match = Regex.Match(result, @"<meta\s+[^>]*?\s*content=[""'][^>]*?charset=(?<txt>.+?);*\s*[""']");
                    }
                    if (match.Success && resultEncoding.WebName.ToLower() != match.Groups["txt"].Value.ToLower())
                    {
                        //Console.WriteLine("!" + match.Groups["txt"].Value);
                        resultEncoding = Encoding.GetEncoding(match.Groups["txt"].Value);
                        result = resultEncoding.GetString(a);
                    }
                    return result;
                }
                else //detectedBOM
                {
                    return detectedBOM.GetString(a);
                }
            }
            catch (Exception e)
            {
                throw new Exception(addr == null ? "null" : addr, e);
            }
        }
 
 
        /// <summary>
        /// UTF8    : EF BB BF
        /// UTF16 BE: FE FF
        /// UTF16 LE: FF FE
        /// UTF32 BE: 00 00 FE FF
        /// UTF32 LE: FF FE 00 00
        /// </summary>
        public static Encoding DetectBOM(byte[] array)
        {
            if (array == null)
                throw new ArgumentNullException(nameof(array));
 
            // Try to read 4 bytes. If the stream is shorter, less bytes will be read.
            //Byte[] array = new Byte[4];
            int length = array.Length;
            if (length >= 2)
            {
                if (array[0] == 0xFE && array[1] == 0xFF)
                {
                    return new UnicodeEncoding(true, true);
                }
 
                if (array[0] == 0xFF && array[1] == 0xFE)
                {
                    if (length >= 4 && array[2] == 0 && array[3] == 0)
                    {
                        return new UTF32Encoding(false, true);
                    }
                    else
                    {
                        return new UnicodeEncoding(false, true);
                    }
                }
 
                if (length >= 3 && array[0] == 0xEF && array[1] == 0xBB && array[2] == 0xBF)
                {
                    return Encoding.UTF8;
                }
 
                if (length >= 4 && array[0] == 0 && array[1] == 0 && array[2] == 0xFE && array[3] == 0xFF)
                {
                    return new UTF32Encoding(true, true);
                }
            }
 
            return Encoding.Default;
        }
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
29.06.2018, 18:14
Помогаю со студенческими работами здесь

Как получить код html-страницы?
Есть запрос к серверу, который возвращает через браузер Google Chrome экранную форму ответа - страницу, с кодом html. Как обратиться к...

Awesomium. Как получить код страницы HTML?
Не могу найти в API. Кто работал с awesomium? Помогите разобраться, пожалуйста. Добавлено через 1 час 5 минут Нашел решение, может...

Как получить HTML код указанной страницы?
Например, я создал форму, со строкой &quot;url&quot;, как мне получить HTML-код той страницы котору ввели в строку.

Как получить полный код html-страницы
Всем доброго времени суток у меня возник такой вопрос как получить полный код страницы(html). потомучто когда получаешь через...

Как получить html код веб-страницы?
Доброе время суток! я хочу загрузить страницу введенную в textBox WinForm через браузер по умолчанию(яндекс). Допустим...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru