Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.56/18: Рейтинг темы: голосов - 18, средняя оценка - 4.56
1 / 1 / 0
Регистрация: 03.06.2013
Сообщений: 101

Парсинг на scrapy

18.10.2014, 11:56. Показов 3368. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день. проблема распарсить сайт на питоне с помощью фреймворка Scrapy. вещь в наших краях не очень распространенная, но все же прошу помощи.
вот сайт
https://apply.firstgroupcareer... d/results/

вот код спайдера

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
from scrapy.spider import Spider
from scrapy.selector import Selector
from scrapy.http import Request
from workopolis.items import Node
 
import time
import re
 
 
 
 
 
 
 
 
class apply(Spider):
 
    name = "apply_spider"
 
    lang = ''
 
    rowFrom = ''
 
    location = ''
 
    title = ''
 
    city = ''
 
    description = ''
 
    category = ''
 
    job_id = ''
 
    driver = None
 
 
 
    start_urls = [
        'https://apply.firstgroupcareers.com/vacancy/find/results/'
        ]
    
    url_app = 'https://apply.firstgroupcareers.com/vacancy/jobecode/description/'
 
 
 
    def parse(self, response):
        
        hxs = Selector(response)
        
        jobs = hxs.xpath('//*[@class="rowContainerHolder"]')
        items = []
        
        for job in jobs:
            item = Node()
            x = job
 
        
 
        item['title'] = hxs.xpath("string(.//*[contains(@class,'rowHeader')])").extract()[0]
 
        url = html.xpath("string(.//*[contains(@class,'rcMenu')]//a").extract()[0]
 
 
        item['job_id'] = re.search('jobId=([0-9]+)', url).groups()[0]
 
        item['apply_url'] = self.url_app.replace('jobecode',item['job_id'])
 
        g = item['title'].split('-')
 
        item['title'] = g[1]
 
        item['city'] = g[0]
 
                        
                    
        print   item['apply_url']
                    
        d_url = item['apply_url']
 
 
                
 
                
                    
 
        request = Request(d_url, callback=self.parse_details)
        request.meta['item'] = item
        items.append(request)
                
 
        for item in items:
            
            yield item
 
 
 
 
    def parse_details(self,response):
 
        html = Selector(response)
        item = response.meta['item']
 
        item['description'] = html.xpath(".//*[contains(@class,'earcu_posdescriptionnote')]").extract()[0]
 
 
        item['language'] = 'en'
 
        item['state'] = html.xpath(".//*[contains(@class,'jobSumValue')]").extract()[0]
        
        
        
 
        
        return item

не могу исправить проблемы
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
18.10.2014, 11:56
Ответы с готовыми решениями:

Scrapy не переходит по странице
Привет всем! Почему паук не переходит по страницам использую правило(что не так делаю), тут код: # -*- encoding: utf-8 -*- from...

Scrapy передача респонса
Добрый день! Спасибо! ну не поленитесь переписать хоть

Scrapy возврат значения
Добрый день. Изучаю Scrapy и столкнулась с проблемой вывода конечного url при редиректе. Код вот: import scrapy import json ...

4
 Аватар для Zuzik
298 / 256 / 57
Регистрация: 11.06.2012
Сообщений: 1,557
18.10.2014, 18:21
И какие же у вас проблемы? Тут к сожалению нет экстрасенсов .
0
1 / 1 / 0
Регистрация: 03.06.2013
Сообщений: 101
18.10.2014, 19:55  [ТС]
Zuzik, зато петросянов много)
смысл писать об ошибке? не работает скрипт, нужно запустить и проверить,если не сложно. конкретно сейчас ошибка такая
local variable 'item' referenced before assignment
0
 Аватар для Zuzik
298 / 256 / 57
Регистрация: 11.06.2012
Сообщений: 1,557
18.10.2014, 21:47
Цитата Сообщение от bor1k_by Посмотреть сообщение
смысл писать об ошибке?
cмысл такой что по ошибке часто можно сказать в чем проблема, а запускать ваш скрипт, до этого возможно установив 2 библиотеки ( используемые у вас я думаю имеются далеко не у всех), да и потом выгадывать что за ошибку имел ввиду автор ... Желающих делать это найдется немного.
Пока у вас проблема в том что вы пытаетесь использовать переменную item, до того как ей что то присвоено.Где именно - честно говоря без запуска кода подсказать не смогу, не помню увы некоторых вещей.

Добавлено через 5 минут
Что такое workopolis? Такой библиотеки не знает ни гугл ни pip.
0
 Аватар для Wolkodav
842 / 480 / 58
Регистрация: 18.09.2012
Сообщений: 1,688
22.10.2014, 23:10
bor1k_by, 55 строка, если не найдено jobs, то не будет объекта item, вывод, все плохо, а вообще как-то подозрительный цикл на 55 строке...

Добавлено через 48 секунд
bor1k_by, переходов по строкам делайте поменьше, крайне трудно читать
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
22.10.2014, 23:10
Помогаю со студенческими работами здесь

парсер на фреймворке scrapy
Вcем привет. Пытаюcь cпарcить некоторые данный c cайта c помощью фреймворка scrapy,однако, не могу иcправить то, что не позволяет вывеcти...

Scrapy crawl как объект
Я бы хотел запускать своего паука из функции как объект, чтобы при каждом запуске изменялось его поле последней посещенной страницы....

Авторизация, Парсер Aliexpress на Scrapy
Приветствую! Что делаю не так? Помогите с авторизацией на али, пожалуйста. Все запросы к страницам редиректит на логин. Код...

Проблема с использованием библиотеки Scrapy
Всем привет, возникла проблема с библиотекой scrapy. Вкратце: при попытке создать проект, консоль выдаёт вот это scrapy : Имя...

Scrapy, прописать селектор правильно
Создаю spider на Scrapy, не получается спарсить данные, у всех одинаковый класс, не знаю как правильно прописать селектор, import...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru