Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.56/18: Рейтинг темы: голосов - 18, средняя оценка - 4.56
1 / 1 / 0
Регистрация: 03.06.2013
Сообщений: 101

Парсинг на scrapy

18.10.2014, 11:56. Показов 3429. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день. проблема распарсить сайт на питоне с помощью фреймворка Scrapy. вещь в наших краях не очень распространенная, но все же прошу помощи.
вот сайт
https://apply.firstgroupcareer... d/results/

вот код спайдера

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
from scrapy.spider import Spider
from scrapy.selector import Selector
from scrapy.http import Request
from workopolis.items import Node
 
import time
import re
 
 
 
 
 
 
 
 
class apply(Spider):
 
    name = "apply_spider"
 
    lang = ''
 
    rowFrom = ''
 
    location = ''
 
    title = ''
 
    city = ''
 
    description = ''
 
    category = ''
 
    job_id = ''
 
    driver = None
 
 
 
    start_urls = [
        'https://apply.firstgroupcareers.com/vacancy/find/results/'
        ]
    
    url_app = 'https://apply.firstgroupcareers.com/vacancy/jobecode/description/'
 
 
 
    def parse(self, response):
        
        hxs = Selector(response)
        
        jobs = hxs.xpath('//*[@class="rowContainerHolder"]')
        items = []
        
        for job in jobs:
            item = Node()
            x = job
 
        
 
        item['title'] = hxs.xpath("string(.//*[contains(@class,'rowHeader')])").extract()[0]
 
        url = html.xpath("string(.//*[contains(@class,'rcMenu')]//a").extract()[0]
 
 
        item['job_id'] = re.search('jobId=([0-9]+)', url).groups()[0]
 
        item['apply_url'] = self.url_app.replace('jobecode',item['job_id'])
 
        g = item['title'].split('-')
 
        item['title'] = g[1]
 
        item['city'] = g[0]
 
                        
                    
        print   item['apply_url']
                    
        d_url = item['apply_url']
 
 
                
 
                
                    
 
        request = Request(d_url, callback=self.parse_details)
        request.meta['item'] = item
        items.append(request)
                
 
        for item in items:
            
            yield item
 
 
 
 
    def parse_details(self,response):
 
        html = Selector(response)
        item = response.meta['item']
 
        item['description'] = html.xpath(".//*[contains(@class,'earcu_posdescriptionnote')]").extract()[0]
 
 
        item['language'] = 'en'
 
        item['state'] = html.xpath(".//*[contains(@class,'jobSumValue')]").extract()[0]
        
        
        
 
        
        return item

не могу исправить проблемы
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
18.10.2014, 11:56
Ответы с готовыми решениями:

Scrapy не переходит по странице
Привет всем! Почему паук не переходит по страницам использую правило(что не так делаю), тут код: # -*- encoding: utf-8 -*- from...

Scrapy передача респонса
Добрый день! Спасибо! ну не поленитесь переписать хоть

Scrapy возврат значения
Добрый день. Изучаю Scrapy и столкнулась с проблемой вывода конечного url при редиректе. Код вот: import scrapy import json ...

4
 Аватар для Zuzik
298 / 256 / 57
Регистрация: 11.06.2012
Сообщений: 1,557
18.10.2014, 18:21
И какие же у вас проблемы? Тут к сожалению нет экстрасенсов .
0
1 / 1 / 0
Регистрация: 03.06.2013
Сообщений: 101
18.10.2014, 19:55  [ТС]
Zuzik, зато петросянов много)
смысл писать об ошибке? не работает скрипт, нужно запустить и проверить,если не сложно. конкретно сейчас ошибка такая
local variable 'item' referenced before assignment
0
 Аватар для Zuzik
298 / 256 / 57
Регистрация: 11.06.2012
Сообщений: 1,557
18.10.2014, 21:47
Цитата Сообщение от bor1k_by Посмотреть сообщение
смысл писать об ошибке?
cмысл такой что по ошибке часто можно сказать в чем проблема, а запускать ваш скрипт, до этого возможно установив 2 библиотеки ( используемые у вас я думаю имеются далеко не у всех), да и потом выгадывать что за ошибку имел ввиду автор ... Желающих делать это найдется немного.
Пока у вас проблема в том что вы пытаетесь использовать переменную item, до того как ей что то присвоено.Где именно - честно говоря без запуска кода подсказать не смогу, не помню увы некоторых вещей.

Добавлено через 5 минут
Что такое workopolis? Такой библиотеки не знает ни гугл ни pip.
0
 Аватар для Wolkodav
842 / 480 / 58
Регистрация: 18.09.2012
Сообщений: 1,688
22.10.2014, 23:10
bor1k_by, 55 строка, если не найдено jobs, то не будет объекта item, вывод, все плохо, а вообще как-то подозрительный цикл на 55 строке...

Добавлено через 48 секунд
bor1k_by, переходов по строкам делайте поменьше, крайне трудно читать
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
22.10.2014, 23:10
Помогаю со студенческими работами здесь

парсер на фреймворке scrapy
Вcем привет. Пытаюcь cпарcить некоторые данный c cайта c помощью фреймворка scrapy,однако, не могу иcправить то, что не позволяет вывеcти...

Scrapy crawl как объект
Я бы хотел запускать своего паука из функции как объект, чтобы при каждом запуске изменялось его поле последней посещенной страницы....

Авторизация, Парсер Aliexpress на Scrapy
Приветствую! Что делаю не так? Помогите с авторизацией на али, пожалуйста. Все запросы к страницам редиректит на логин. Код...

Проблема с использованием библиотеки Scrapy
Всем привет, возникла проблема с библиотекой scrapy. Вкратце: при попытке создать проект, консоль выдаёт вот это scrapy : Имя...

Scrapy, прописать селектор правильно
Создаю spider на Scrapy, не получается спарсить данные, у всех одинаковый класс, не знаю как правильно прописать селектор, import...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Программный контроль заполнения реквизита табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита "ПричинаСписания". . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Программное заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru