Как спарсить результат выдачи Google

@Лукаа · Регистрация: 21.12.2014

Author24 — интернет-сервис помощи студентам

Всем привет,не подскажите как все-таки парсить выдачу поиска Google.пробовал через mechanicalsoup не получилось.. Буду признателен!!

@alex925 · 08.11.2015, 15:28

requests или selenium с любым из браузеров

@Лукаа · 08.11.2015, 18:54 **[ТС]**

Думаю с request будет удобнее, но только почему-то не получается. Можно пример?

Добавлено через 1 час 15 минут
Пробовал вот так, но не выходит

Python

import urllib.request
 
def get_HTML(url):
    responce = urllib.request.urlopen(url)
    return responce.read()
 
site = 'https://www.google.com/search?q=777&ie=utf-8&oe=utf-8'
print(get_HTML(site))

Добавлено через 1 минуту
Выдает ошибку

Python

Traceback (most recent call last):
  File "C:/Users/Алексей/PycharmProjects/untitled1/main.py", line 18, in <module>
    main()
  File "C:/Users/Алексей/PycharmProjects/untitled1/main.py", line 15, in main
    print(get_HTML(site))
  File "C:/Users/Алексей/PycharmProjects/untitled1/main.py", line 5, in get_HTML
    responce = urllib.request.urlopen(url)
  File "C:\Users\Алексей\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 162, in urlopen
    return opener.open(url, data, timeout)
  File "C:\Users\Алексей\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 471, in open
    response = meth(req, response)
  File "C:\Users\Алексей\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 581, in http_response
    'http', request, response, code, msg, hdrs)
  File "C:\Users\Алексей\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 503, in error
    result = self._call_chain(*args)
  File "C:\Users\Алексей\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 443, in _call_chain
    result = func(*args)
  File "C:\Users\Алексей\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 686, in http_error_302
    return self.parent.open(new, timeout=req.timeout)
  File "C:\Users\Алексей\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 471, in open
    response = meth(req, response)
  File "C:\Users\Алексей\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 581, in http_response
    'http', request, response, code, msg, hdrs)
  File "C:\Users\Алексей\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 509, in error
    return self._call_chain(*args)
  File "C:\Users\Алексей\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 443, in _call_chain
    result = func(*args)
  File "C:\Users\Алексей\AppData\Local\Programs\Python\Python35-32\lib\urllib\request.py", line 589, in http_error_default
    raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 403: Forbidden

Добавлено через 1 час 18 минут
Попробовал вот так, но почему-то получаю html код без результатов..

Python

    site = 'https://www.google.ru/#q=s&newwindow=1&start=0'
    page = None
    r = requests.get(site)
    page = r.text
    print(page)

@igornec2006 · 08.11.2015, 19:28

Python

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
 
search_engine = "http://www.google.ru"
search_string = "Путин Владимир Владимирович" #:)
 
browser = webdriver.Firefox()
browser.get(search_engine)
element = browser.find_element_by_name('q')
element.send_keys(search_string + ' wiki' + Keys.RETURN)
#waiting for loading SERP
browser.implicitly_wait(5)
all_links = browser.find_elements_by_css_selector('a:link')
hrefs = []
hrefs = [x.get_attribute('href') for x in all_links if x.get_attribute('href') not in hrefs]

@Лукаа · 08.11.2015, 19:32 **[ТС]**

Такой вопрос, а почему при попытке посмотреть исходный код страницы, т е выдачи результатов Google, не видно дива с результатами?

@alex925 · 08.11.2015, 19:40

Сообщение от Лукаа

Думаю с request будет удобнее,

Я тебе не про стандартную бибилиотеку говорю urllib.request, я тебе говою об requests. Совершение запроса делается в 1 строчку.

@Лукаа · 08.11.2015, 19:53 **[ТС]**

Я же написал, что пробовал через requests

Python

   
import requests
 
 site = 'https://www.google.ru/#q=s&newwindow=1&start=0'
    page = None
    r = requests.get(site)
    page = r.text
    print(page)

он выдает результат, но в этом HTML тексте нет результатов поиска... Попробуй зайти на google, вбей что-ниб на поиск, он покажет страницу с результатами и попробуй посмотреть исходный код страницы. Там нет div с результатами... Это новая фишка google или я чего-то не понимаю.. Пробовал посмотреть у яндекса - у того все есть..

Добавлено через 3 минуты
Выдают ошибку

Python

1
2

  File "C:/Users/Алексей/PycharmProjects/untitled1/selenium.py", line 5
SyntaxError: Non-UTF-8 code starting with '\xcf' in file C:/Users/Алексей/PycharmProjects/untitled1/selenium.py on line 5, but no encoding declared; see [url]http://python.org/dev/peps/pep-0263/[/url] for details

Добавлено через 36 секунд

@alex925 · 08.11.2015, 20:00

Лукаа, Подсовывай какие нибудь заголовки реального браузера, скорее всего тебя гугл шлёт, потому что распознает в тебе бота.

Сообщение от Лукаа

Выдают ошибку

В пути не должно быть кирилицы, а у тебя имя пользователя кириллицей написано

@Лукаа · 11.11.2015, 21:43 **[ТС]**

Ругался на Володю))

Python

1 2	search_engine = "http://www.google.ru" search_string = "Путин Владимир Владимирович" #:)

Добавлено через 7 минут
А как нажать на кнопку, здесь понятно, что js подгружает, а так как это будет?

@Лукаа · 14.11.2015, 22:44 **[ТС]**

Не получается получить массив, можно помочь

Python

1 2	hrefs = [] hrefs = [x.get_attribute('href') for x in all_links if x.get_attribute('href') not in hrefs]

@igornec2006 · 18.11.2015, 10:55

Лукаа, тут без js. Можно, к примеру, так:

Python

1
2
3

search_string = "что-то найти..."
element = browser.find_element_by_name('q')
element.send_keys(search_string + Keys.RETURN)

Добавлено через 3 минуты
Лукаа, обрати внимание на вот эту строку:

Python

1	all_links = browser.find_elements_by_css_selector('a:link')

этой командой выполняется поиск всех элементов на странице, имеющих HTML тэг <a>, т.е. результат выдачи Гугла

@Лукаа 1 / 1 / 1 Регистрация: 21.12.2014 Сообщений: 195
		1
	Как спарсить результат выдачи Google 08.11.2015, 14:49. Показов 9257. Ответов 10 Метки нет (Все метки) Всем привет,не подскажите как все-таки парсить выдачу поиска Google.пробовал через mechanicalsoup не получилось.. Буду признателен!! 0

@alex925 2740 / 2339 / 620 Регистрация: 19.03.2012 Сообщений: 8,830
	08.11.2015, 15:28	2
	requests или selenium с любым из браузеров 1

@Лукаа 1 / 1 / 1 Регистрация: 21.12.2014 Сообщений: 195
	08.11.2015, 19:32 [ТС]	5
	Такой вопрос, а почему при попытке посмотреть исходный код страницы, т е выдачи результатов Google, не видно дива с результатами? 0

@alex925 2740 / 2339 / 620 Регистрация: 19.03.2012 Сообщений: 8,830
	08.11.2015, 19:40	6
	Сообщение от Лукаа Думаю с request будет удобнее, Я тебе не про стандартную бибилиотеку говорю urllib.request, я тебе говою об requests. Совершение запроса делается в 1 строчку. 0

@alex925 2740 / 2339 / 620 Регистрация: 19.03.2012 Сообщений: 8,830
	08.11.2015, 20:00	8
	Лукаа, Подсовывай какие нибудь заголовки реального браузера, скорее всего тебя гугл шлёт, потому что распознает в тебе бота. Сообщение от Лукаа Выдают ошибку В пути не должно быть кирилицы, а у тебя имя пользователя кириллицей написано 0

Как спарсить результат выдачи Google

Решение