Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.89/18: Рейтинг темы: голосов - 18, средняя оценка - 4.89
0 / 0 / 0
Регистрация: 20.04.2012
Сообщений: 136

Парсинг гугл ссылок

31.10.2018, 16:42. Показов 3914. Ответов 13
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
        private void button1_Click(object sender, EventArgs e)
        {
 
            listBox1.Items.Clear();
            string txtKeyWords = "sdfsffsdsdfs";
            StringBuilder sb = new StringBuilder();
            byte[] ResultsBuffer = new byte[8192];
            string SearchResults = "http://google.com/search?q=" + txtKeyWords.Trim();
            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(SearchResults);
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
 
            Stream resStream = response.GetResponseStream();
            string tempString = null;
            int count = 0;
            do
            {
                count = resStream.Read(ResultsBuffer, 0, ResultsBuffer.Length);
                if (count != 0)
                {
                    tempString = Encoding.ASCII.GetString(ResultsBuffer, 0, count);
                    sb.Append(tempString);
                }
            }
 
            while (count > 0);
            string sbb = sb.ToString();
 
            HtmlAgilityPack.HtmlDocument html = new HtmlAgilityPack.HtmlDocument();
            html.OptionOutputAsXml = true;
            html.LoadHtml(sbb);
            HtmlNode doc = html.DocumentNode;
 
            foreach (HtmlNode link in doc.SelectNodes("//a[@href]"))
            {
                //HtmlAttribute att = link.Attributes["href"];
                string hrefValue = link.GetAttributeValue("href", string.Empty);
                if (!hrefValue.ToString().ToUpper().Contains("GOOGLE") && hrefValue.ToString().Contains("/url?q=") && hrefValue.ToString().ToUpper().Contains("HTTP://"))
                {
                    int index = hrefValue.IndexOf("&");
                    if (index > 0)
                    {
                        hrefValue = hrefValue.Substring(0, index);
                        listBox1.Items.Add(hrefValue.Replace("/url?q=", ""));
                    }
                }
            }
        }
    }

на просторах интернета нашел вот такой код.сначала выводило чисто 1 ссылку.сейчас ничего.помогите пожалуйста.
вообще нужно будет мне дальше фильтроватьссылки по сайтам определенным,но это уже такое
думал как то добавить в запрос site:mysite и выводить линку если найдена.если нет то не найдено
помогите плиз пофиксить код,чтобхотя бывсе запросы выдавались
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
31.10.2018, 16:42
Ответы с готовыми решениями:

Парсинг внутренних ссылок
Можно ли как-то определить при парсинге, что ссылка является внутренней, если она выглядит следующим образом: <a...

Парсинг внутренних ссылок
ребят подскажите, как можно осуществить парсинг всех внутренних ссылок?

Парсинг ссылок с сайта
Собственно как зайти на данный сайт программно? https://csgojackpot.com/ А потом спарсить в List<string> ссылки на всех...

13
управление сложностью
 Аватар для Почтальон
1693 / 1306 / 259
Регистрация: 22.03.2015
Сообщений: 7,545
Записей в блоге: 5
31.10.2018, 16:52
Глупо парсить выдачу гугла....Он выдает ровно то, что вы желаете, а не действительность.
0
0 / 0 / 0
Регистрация: 20.04.2012
Сообщений: 136
31.10.2018, 18:06  [ТС]
ну мне надо пока хоть так.дальше буду думать.как исправить ,чтоб он выдавал около ста ссылок хоть

Добавлено через 2 минуты
этот код выдает мою ссылку с бразера последнюю.
0
177 / 151 / 31
Регистрация: 28.09.2018
Сообщений: 204
31.10.2018, 18:16
Sliponn,

у вас в коде
C#
1
&& hrefValue.ToString().ToUpper().Contains("HTTP://")
а посмотрев выдачу гугла по вашему же примеру, абсолютно все ссылки (на первой странице) "https://..."
поэтому и не выдаёт похоже, хотя могут и другие ошибки, не вникал плотно...
1
0 / 0 / 0
Регистрация: 20.04.2012
Сообщений: 136
31.10.2018, 19:20  [ТС]
благодарность он нашего дома,вашему.буду разбираться)
0
 Аватар для EveKS
601 / 485 / 185
Регистрация: 19.04.2016
Сообщений: 1,885
31.10.2018, 20:08
Цитата Сообщение от Почтальон Посмотреть сообщение
Глупо парсить выдачу гугла....Он выдает ровно то, что вы желаете, а не действительность.
А можно поподробнее?
К примеру, спрашиваю я у гугла картинки маленьких ёжиков, он мне выдает ссылки на картинки:
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
https://ru.depositphotos.com/28846105/stock-photo-little-hedgehog-in-human-hands.html
http://xn--i1abbnckbmcl9fb.xn--p1ai/%D1%81%D1%82%D0%B0%D1%82%D1%8C%D0%B8/500036/
https://www.youtube.com/watch?v=PmdFct2QmcU
https://yandex.ru/collections/card/5a0ac718c75bad7dd99bbe75/
https://www.youtube.com/watch?v=Lgzpj_QnXAo
https://ru.depositphotos.com/147767609/stock-photo-a-cute-little-hedgehog-african.html
http://animal-photos.ru/hedgehogs/1150-malenkiy-ezhik.html
https://www.livemaster.ru/item/24934755-kukly-i-igrushki-malenkij-ezhik-s-bolshim-serdtsem
https://pikabu.ru/story/malenkiy_yozhik_6014865
https://pikabu.ru/story/malenkiy_yozhik_5783741
https://www.livemaster.ru/item/12876353-kukly-i-igrushki-malenkij-ezhik-shio
https://ru.depositphotos.com/161054188/stock-photo-little-hedgehog-in-hands.html
https://pikabu.ru/story/malenkiy_yozhik_6014865
http://fotokto.ru/photo/view/5266029.html
https://www.youtube.com/watch?v=45ykFx_zZtk
https://ru.depositphotos.com/162757400/stock-photo-hedgehog-in-the-hands-little.html
https://prom.ua/p332225888-shema-dlya-vyshivki.html
И так 100 ссылок(сюда много текста не вставить, но 100 ссылок есть). Но ведь я и хотел ёжиков, что есть действительность?)
0
 Аватар для PoPsa85
814 / 561 / 240
Регистрация: 01.07.2018
Сообщений: 1,818
31.10.2018, 20:22
EveKS, Что там еще и видео.
0
 Аватар для EveKS
601 / 485 / 185
Регистрация: 19.04.2016
Сообщений: 1,885
31.10.2018, 20:30
PoPsa85, Это вижу ссылку, пишу видео, или это как-то проверено?
Code
1
2
3
4
https://www.youtube.com/watch?v=PmdFct2QmcU
https://www.youtube.com/watch?v=Lgzpj_QnXAo
https://www.youtube.com/watch?v=45ykFx_zZtk
https://www.youtube.com/watch?v=CN0EAjxw4TA
Проверил 4 ссылки, и все 4 дали мне картинку... Или для доказательства надо отсеять 100 ссылок на ютуб и выложить 100 картинок?
Миниатюры
Парсинг гугл ссылок   Парсинг гугл ссылок   Парсинг гугл ссылок  

Парсинг гугл ссылок  
0
 Аватар для PoPsa85
814 / 561 / 240
Регистрация: 01.07.2018
Сообщений: 1,818
31.10.2018, 20:34
Цитата Сообщение от EveKS Посмотреть сообщение
или это как-то проверено?
Это предположение, сам лично я не понимаю, почему глупо парсить выдачу.
0
 Аватар для EveKS
601 / 485 / 185
Регистрация: 19.04.2016
Сообщений: 1,885
31.10.2018, 20:40
Сам лично, я парсил JSON'ны в выдачах, особо в разметку не всматривался, учитывая что там куча рекламы и тп

А на вопрос, как это сделать (автору), жмем в браузере f12. Смотрим что там, пишем пару регулярок или используем тот-же AngleSharp или ему подобное. И достаем нудные нам JSON'ны. А там все просто, и ссылки и куча инфы лишней. А как отправить запрос правильно, ищем документацию на запросы.
0
177 / 151 / 31
Регистрация: 28.09.2018
Сообщений: 204
31.10.2018, 21:07
На всякий случай, напомню, что гугл (равно как и яндекс, и не только они) в случае множественных запросов банят ip, с которого идут такие запросы.
Так что если вам жизненно необходимо в 20 потоков каждую секунду запрашивать картинки ёжиков/зайчиков/котиков, то сразу продумывайте как всё это пускать через прокси.
1
 Аватар для EveKS
601 / 485 / 185
Регистрация: 19.04.2016
Сообщений: 1,885
31.10.2018, 21:12
griffon88, это является проблемой?) в том же гугле можно загуглить фрипрокси и вытащить от туда как можно больше. Автор вон какой код нарыл . А если он не планирует всё это ставить на поток, то проще в том же браузере всё это сделать прямо в консоли. Да и вряд-ли синхронную кнопку получится нажимать 20 раз в секунду
0
177 / 151 / 31
Регистрация: 28.09.2018
Сообщений: 204
31.10.2018, 21:23
EveKS, да не, проблемой не является, просто чтобы потом автор не удивлялся , почему вдруг ему перестали выдавать результаты поиска
1
управление сложностью
 Аватар для Почтальон
1693 / 1306 / 259
Регистрация: 22.03.2015
Сообщений: 7,545
Записей в блоге: 5
01.11.2018, 11:02
Цитата Сообщение от PoPsa85 Посмотреть сообщение
сам лично я не понимаю, почему глупо парсить выдачу.
Потому что поисковые алгоритмы гугла очень развиты. Вы разве не замечали, что когда что-то ищите в гугле, потом везде, где возможно, вам показываются релевантные контекстные объявления ? Это может зависеть как и от геоданных, так и от соц.сети и т.п.
Т.е. если два разных человека в разных местах будут искать по фразе - купить кроссовки, выдача гугла им будет выдавать различные результаты.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
01.11.2018, 11:02
Помогаю со студенческими работами здесь

Парсинг ссылок из HTML документа
Вот такой код нашел на просторах интернета: List links = new List(); foreach (HtmlElement link in webBrowserDocument.Links) { ...

Парсинг ссылок используя Html Agility Pack
Здравствуйте. Подскажите пожалуйста , можно ли как то более точно фильтровать полученные ссылки Делаю так HtmlDocument doc = new...

Парсинг страницы - выводится только первая из 10 ссылок
Привет всем. Есть код , который парсит с сайта ссылки : private void button1_Click(object sender, EventArgs e) { ...

Парсинг html файла для поиска ссылок
Добрий день. Стоит задача найти и пропарсить html файлы в фолдере. Найти понятно как. А вот как их пропарсить? Смысл в том, что я...

Парсинг всех ссылок регулярным выражением
Добрый вечер. Такая проблема: мне нужно спарсить все ссылки с сайта www.rt.com используя регулярные выражения. Почитал документацию,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
14
Ответ Создать тему
Новые блоги и статьи
Программный контроль заполнения реквизита табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита табличной части. . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Функция заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru