Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.55/11: Рейтинг темы: голосов - 11, средняя оценка - 4.55
0 / 0 / 0
Регистрация: 06.10.2014
Сообщений: 7
.NET 4.x

Парсер Яндекса: вывод всех сайтов со страницы поиска

17.10.2014, 16:31. Показов 2020. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Ку всем я вот решил написать парссер для Яндеса который бы выводил все сайты из странички поиска только вот столкнулся из проблемой не могу понять почему у меня не работаю правильно регулярные выражения.Может из за капчи тогда не подскажите как с ней справится без антигейта ?

C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Windows.Forms;
using System.Net;
using System.Text.RegularExpressions;
using xNet.Text;
using xNet.Net;
 
 
namespace parser
{
    public partial class Form1 : Form
    {
        public Form1()
        {
            InitializeComponent();
        }
 
        private void button1_Click(object sender, EventArgs e)
        {
            //string urle = "http://yandex.ua/yandsearch?lr=10347&text=" + "site:";
            //string end = "&csg=309%2C1703%2C5%2C4%2C0%2C0%2C0";
            //string iss = i.ToString();
            //string pige = "&p=" + iss;
            //string word = textBox1.Text;
            //string htp = urle + word + end + pige;
            //webBrowser1.Navigate(htp);
            //WebClient wc = new WebClient();
            //wc.DownloadStringCompleted += new DownloadStringCompletedEventHandler(wc_DownloadStringCompleted);
            //wc.DownloadStringAsync(new Uri(htp));
  
            i--;
        }
 
        private void button2_Click(object sender, EventArgs e)
        {
        //    WebClient wc = new WebClient();
        //    string request = wc.DownloadString;
        //    richTextBox1.Text = request;
            //string urle = "http://yandex.ua/yandsearch?lr=10347&text=" + "site:";
            //string end = "&csg=309%2C1703%2C5%2C4%2C0%2C0%2C0";
            //string iss = i.ToString();
            //string pige = "&p=" + iss;
            //string word = textBox1.Text;
            //string htp = urle + word + end + pige;
            //webBrowser1.Navigate(htp);
            //WebClient wc = new WebClient();
            //wc.DownloadStringCompleted += new DownloadStringCompletedEventHandler(wc_DownloadStringCompleted);
            //wc.DownloadStringAsync(new Uri(htp));
  
            i++;
            
        }
       private int i = 0;
        private void button3_Click(object sender, EventArgs e)
        {
            // string url = "http://yandex.ua/yandsearch?lr=10347&text=idustrial&csg=690%2C5298%2C9%2C9%2C0%2C0%2C0";
            string urle = "http://yandex.ua/yandsearch?lr="+"&text=" + "site:";
            string end = "&csg=";
            string iss = i.ToString();
            string pige = "&p=" + iss;
            string word = textBox1.Text; 
            string htp = urle + word + end + pige;
            
            webBrowser1.Navigate(htp);
            WebClient wc = new WebClient();
            wc.DownloadStringCompleted += new DownloadStringCompletedEventHandler(wc_DownloadStringCompleted);
            wc.DownloadStringAsync(new Uri(htp));
               }
        void wc_DownloadStringCompleted(object sender, DownloadStringCompletedEventArgs e)
            {
             string html = e.Result;
             string textout = "";
             string text = html;
            // Regex regex = new Regex(@"^(http|https|ftp|)\://|[a-zA-Z0-9\-\.]+\.[a-zA-Z](:[a-zA-Z0-9]*)?/?([a-zA-Z0-9\-\._\?\,\'/\\\+&%\$#\=~])*[^\.\,\)\(\s]$");
             //Regex regex = new Regex(@"http://\w+[a-zA-Z0-9-_.]+.+\w+[a-zA-Z0-9].[a-z]{2,3}");
         Regex regex = new Regex(@"http://\w+[a-zA-Z0-9].[a-z]{2,3}");
            //   /// //// @"http://\w+[a-zA-Z0-9]+.+\w+[a-zA-Z0-9].[a-z]{2,3}"
             Match match = regex.Match(text);
             while (match.Success)
             {
                 textout += match.Value + "\n";
                 match = match.NextMatch();
             }
             richTextBox2.Text = text;            
            }
       
    }
}
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
17.10.2014, 16:31
Ответы с готовыми решениями:

Написать парсер, который с главной страницы Яндекса читал бы значения курсов валют
Друзья, я имею некоторый опыт с с#, но при этом абсоютно ничего не знаю об хтмл. И тут вдруг понадобилось написать парсер, который с...

Из поиска Яндекса исчезают конкретные страницы
Здравствуйте, Коллеги! В последнее время заметил, что из поиска Яндекса полностью исчезают конкретные страницы моего проекта. Если...

вывод в поиске яндекса заглавной страницы
Здравствуйте... есть такая проблемка, при поиске в яндексе по ключевому слову находится поддерживаемый мною сайт, но ссылка ведущая с...

3
Каратель
Эксперт С++
6610 / 4029 / 401
Регистрация: 26.03.2010
Сообщений: 9,273
Записей в блоге: 1
17.10.2014, 17:32
использовать api yandex
0
0 / 0 / 0
Регистрация: 06.10.2014
Сообщений: 7
17.10.2014, 18:42  [ТС]
Jupiter, а есть пример использования или мануал кроме информации на Яндексе ?
0
Каратель
Эксперт С++
6610 / 4029 / 401
Регистрация: 26.03.2010
Сообщений: 9,273
Записей в блоге: 1
18.10.2014, 13:59
Цитата Сообщение от MaximumMax Посмотреть сообщение
а есть пример использования или мануал кроме информации на Яндексе ?
примеров на сайте яндекса достаточно
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
18.10.2014, 13:59
Помогаю со студенческими работами здесь

Парсер выдачи яндекса
Подскажите, пожалуйста, с каким интервалом лучше посылать запросы Яндексу, чтобы не нарваться на капчу и подобное? Что лучше, парсить...

существует ли в природе парсер яндекса
А про веб-сервисы не задумывались? Может давно уже всё написано самим яндексом, а вам только осталось научится пользоваться? Например в...

Парсер поисковой выдачи яндекса
здравствуйте. совершенно новая тема для меня парсеры. мне надо написать как через curl'ы так и через яндекс.xml. никогда раньше с...

Вывод списка всех листьев бинарного дерева поиска
Нужно реализовать бинарное дерево поиска и вывести все его вершины, не имеющие потомков. Само дерево реализовано вот так struct node...

Тотальное выпадение сайтов из Яндекса
Че-то здесь не обсуждают, только 1 топик нашёл, а надо бы знать вообще что происходит. Куча сайтов вылетело у разных людей. Проблема не в...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
Символьное дифференцирование
igorrr37 13.02.2026
/ * Программа принимает математическое выражение в виде строки и выдаёт его производную в виде строки и вычисляет значение производной при заданном х Логарифм записывается как: (x-2)log(x^2+2) -. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru