Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.55/11: Рейтинг темы: голосов - 11, средняя оценка - 4.55
7 / 7 / 5
Регистрация: 01.01.2012
Сообщений: 111
.NET 4.x

Составить регулярное выражение (парсер kinopoisk)

03.01.2012, 14:38. Показов 2176. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Пытаюсь сделать парсер для kinopoisk.ru. Возникло два вопроса:
1. При попытке парсинга страницы одного фильма, возвращается страница, что вы распознаны как робот и т.д. Почитал на сайтах, пишут что нужно авторизоваться на сайте. Как это собственно можно сделать программно?
2. При написании регулярных выражений запнулся на выражениях для описании фильма, где может быть несколько параметров, а может быть и один (например жанр). Помогите с написание выражения для такого варианта, с учетом кол-во жанров может быть и один и несколько:
HTML5
1
<tr><td class="type">жанр</td><td itemprop="genre"><a href="/level/10/m_act%5Bgenre%5D/3/" >боевик</a>, <a href="/level/10/m_act%5Bgenre%5D/8/" >драма</a>, <a href="/level/10/m_act%5Bgenre%5D/6/" >комедия</a>, <a href="/level/10/m_act%5Bgenre%5D/16/" >криминал</a>, <a href="/level/92/film/32898/" >...</a></td></tr>
Пока что накидал такой код, может его можно как то улучшить (на данном этапе задаче стоит в получении параметров фильма и занесении их в textBox'ы):
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
        private void buttonOk_Click(object sender, EventArgs e)
        {
            HttpWebRequest _request;
            HttpWebResponse _response;
            StreamReader _reader;
            string _SourceHTML;
 
            _request = (HttpWebRequest)WebRequest.Create(textBoxUrl.Text);
            _request.UserAgent = "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/533.4 (KHTML, like Gecko) Chrome/5.0.375.55 Safari/533.4";
            _request.Referer = "http://www.kinopoisk.ru/";
            _request.ProtocolVersion = HttpVersion.Version11;
            _request.ContentType = "text/html";
            _response = (HttpWebResponse)_request.GetResponse();
            _reader = new StreamReader(_response.GetResponseStream(), Encoding.GetEncoding("windows-1251"));
            _SourceHTML = _reader.ReadToEnd();
            _reader.Close();
 
            SourceHTML.Text = _SourceHTML;
 
            RegexOptions myRegexOptions = RegexOptions.IgnoreCase;
 
            string MovieNameRus = @"<h1 [\S\s]+ class=""moviename-big"" itemprop=""name"">(?<movnamer>.+?)\s</h1>";
            Regex rxMovieNameRus = new Regex(MovieNameRus, myRegexOptions);
            textBoxRusName.Text = rxMovieNameRus.Match(SourceHTML.Text).Groups["movnamer"].Value;
 
            string MovieNameWorld = @"<span style=""color: #666; font-size: 13px"" itemprop=""alternativeHeadline"">(?<movnamew>.+?)</span>";
            Regex rxMovieNameWorld = new Regex(MovieNameWorld, myRegexOptions);
            textBoxWorldName.Text = rxMovieNameWorld.Match(SourceHTML.Text).Groups["movnamew"].Value;
 
            string MovieYear = @"<a href=""/level/.+?/m_act.5Byear.5D/.+?/"" title=..>(?<year>.+?)</a>";
            Regex rxMovieYear = new Regex(MovieYear, myRegexOptions);
            textBoxYear.Text = rxMovieYear.Match(SourceHTML.Text).Groups["year"].Value;
 
        }
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
03.01.2012, 14:38
Ответы с готовыми решениями:

Регулярное выражение, парсер подсказок
Добрый день! Вот такой вопрос возник. Выполняю регулярное выражение. ...

Составить регулярное выражение
Уважаемые специалисты. Помогите с регулярным выражением. Составил такую регулярку, она находит большую часть нужной инфы, но не всё. Нужно...

Составить регулярное выражение
Есть текст: size=5.33 2фв&gt;6 фыф33&gt;отв. Избитая поисковая фраза: Regex r = new Regex(Regex.Escape(start) + &quot;(.*?)&quot; +...

2
774 / 554 / 80
Регистрация: 03.07.2011
Сообщений: 1,020
03.01.2012, 15:28
Раз нужно автоматизироваться ,лучше использовать WebBrowers он и для парсинга подойдет и для авторизации

Добавлено через 21 минуту
авторизоваться ,а не автоматизироваться, пардон

C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
webBrowser1.DocumentText = System.IO.File.ReadAllText("jjj.txt", Encoding.UTF8);//в файле ваша строчка html кода 
  private void webBrowser1_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
        {  
            foreach(HtmlElement jh in webBrowser1.Document.GetElementsByTagName("td"))
            {
               foreach (HtmlElement gg in jh.All)
               {
                  if (gg.TagName == "A")
                  {
                   MessageBox.Show(gg.InnerText);//так получать имена жанров ,но почему то не пашет (( хотя должен 
                  }
               }
            }
        }
0
 Аватар для 77Bender77
18 / 18 / 2
Регистрация: 16.12.2010
Сообщений: 145
07.08.2012, 01:51
thesoftdevcom, удалось реализовать авторизацию? а как у тебя прога получает адрес страницы?
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
07.08.2012, 01:51
Помогаю со студенческими работами здесь

Составить регулярное выражение
Есть текст вот такого вида...

Составить регулярное выражение
Есть строка типа &quot;sometextDocs/sometext&quot;надо получить всё что после Docs/

Составить регулярное выражение
Всем привет. Подскажите как добраться до значения -21 ?(нужно все что между |и| может быть в третьем блоке). Спасибо! ...

Составить регулярное выражение
Здравствуйте, помогите пожалуйста написать регулярку чтобы она делала следующее: есть массив строк, если в строке встречается сочетание...

Составить регулярное выражение
Друзья, помогите составить регулярное вырежение буду рад любым примерам есть html-страница, записанная в переменную string ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru