Выдает ошибку ERROR:main:Error parsing job listing

@mag590 · Регистрация: 13.06.2023

Студворк — интернет-сервис помощи студентам

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
import requests
import csv
from bs4 import BeautifulSoup
import fake_useragent
import logging
 
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)
 
 
def hh_parse(base_url, headers):
    """
    Parses job listings from hh.ru for the search query 'python'.
 
    :param base_url: Base URL for job search.
    :type base_url: str
    :param headers: HTTP headers for request.
    :type headers: dict
    :return: List of job listings.
    :rtype: list
    """
 
    # Initialize variables
    jobs = [ ]
    urls = [ base_url ]
    session = requests.Session()
    user_agent = fake_useragent.UserAgent().random
    headers [ 'User-Agent' ] = user_agent
 
    # Send initial request to get number of pages
    request = session.get(base_url, headers=headers)
    if request.status_code == 200:
        soup = BeautifulSoup(request.content, 'lxml')
        try:
            pagination = soup.find_all('a', attrs={'data-qa': 'pager-page'})
            count_pages = int(pagination [ -1 ].text)
            for i in range(count_pages):
                url = f'https://hh.ru/search/vacancy?area=1&search_period=3&text=python&page={i}'
                if url not in urls:
                    urls.append(url)
        except:
            logger.error("Error getting number of pages.")
            return jobs
 
        # Loop through each page and parse job listings
        for url in urls [ :-1 ]:
            logger.info("Parsing page: %s", url)
            request = session.get(url, headers=headers)
            soup = BeautifulSoup(request.content, 'lxml')
            divs = soup.find_all('div', attrs={'class': 'vacancy-serp-item-body'})
            for div in divs:
                try:
                    title = div.find('a', attrs={'data-qa': 'serp-item__title'}).text
                    href = div.find('a', attrs={'data-qa': 'vacancy-serp__vacancy-title'}) [ 'href' ]
                    jobs.append({
                        'title': title,
                        'href': href
                    })
                except:
                    logger.error("Error parsing job listing.")
                    pass
        logger.info("Job listings parsed: %s", len(jobs))
    else:
        logger.error("Error sending request to hh.ru.")
 
    return jobs
 
 
def write_to_csv(jobs):
    """
    Writes job listings to a CSV file.
 
    :param jobs: List of job listings.
    :type jobs: list
    """
 
    with open('parsed_jobs.csv', 'w', newline='') as file:
        writer = csv.writer(file, delimiter=',')
        for job in jobs:
            try:
                writer.writerow((job [ 'title' ], job [ 'href' ]))
            except:
                logger.error("Error writing job listing to CSV.")
        logger.info("Job listings written to CSV file.")
 
 
# Define base URL and headers for request
base_url = 'https://hh.ru/search/vacancy?area=1&search_period=3&text=python&page=0'
headers = {'User-Agent': ''}
 
# Parse job listings and write to CSV file
jobs = hh_parse(base_url, headers)
write_to_csv(jobs)

@Welemir1 · 22.06.2023, 19:14

Сообщение от mag590

except:
logger.error("Error parsing job listing.")
pass

пасс тут зачем?
Перехвати исключение конкретное и выведи его, чтобы понять в чем дело

@mag590 · 22.06.2023, 20:21 **[ТС]**

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
import requests
import csv
from bs4 import BeautifulSoup as bs
import fake_useragent
# маскируемся под юзера
user = fake_useragent.UserAgent().random
headers1 = {'user-agent': user}
# стандартная страница для парсера
base_url = 'https://hh.ru/search/vacancy?area=1&search_period=3&text=python&page=0'
 
 
# noinspection PyBroadException
def hh_parse(base_url):
    # noinspection PyGlobalUndefined
    global url
    jobs = []
    urls = [base_url]
    session = requests.Session()  # иммулирует действия одного пользователя, а не разные запросы
    request = session.get(base_url, headers=headers1)
    # проверка данных, которые отдает нам сервер
    if request.status_code == 200:  # код успешного запроса
        # обработка полученных данных
        soup = bs(request.content,  # ответ который нам отправляет сервер
                  'lxml')  # старый парсер 'html.parser' #разбивает ответ на блоки html
        #      print(soup) # весь ответ, если нужно
        # проверяем кол-во страниц на сайте для парсинга нескольких страниц
        try:
            pagination = soup.find_all('a', attrs={'data-qa': 'pager-page'})
            count_pages = int(pagination[-1].text)
            for i in range(count_pages):
                url = f'https://hh.ru/search/vacancy?area=1&search_period=3&text=python&page={i}'
                if url not in urls:
                    urls.append(url)
        except:
            print('or')
        for url in urls[:-1]:
 
            print(url)
        request = session.get(url, headers=headers1)  # ответ от сервера
        soup = bs(request.content,  # ответ который нам отправляет сервер
                  'lxml')  # библиотека парсинга разбивает ответ на блоки html
        # разбиваем ответ на блоки по шаблону
        print(type(soup))
 
        divs = soup.find_all('div', attrs={'class': 'vacancy-serp-item-body'})
        print('div' + str(len(divs)))
        # обрабатываем каждый блок
        for div in divs:
            print(div)
            try:
                # title1 = div.find('a', attrs={'data-qa': 'vacancy-serp__vacancy-title'})
                # #отображает полный html код блоки <a />
                title2 = div.find('a', attrs={'data-qa': 'serp-item__title'}).text  # вакансия
                href = div.find('a', attrs ={'data-qa': 'vacancy-serp__vacancy-title'})['href'] #ссылка на вакансию
                company = div.find('a', attrs={'data-qa': 'vacancy-serp__vacancy-employer'}).text
                jobs.append({
                    'title': title2,
                    'href': href,
                    'company': company,
                })
            except:
                print("r")
                pass
        print(jobs)
        print(len(jobs))
 
    else:
        print('DONE')
    return jobs
 
 
# noinspection PyBroadException
def files_writer(jobs):
    with open('parsed_jobs.csv', 'w', newline='') as file:
        a_pen = csv.writer(file, delimiter=',')
        for job in jobs:
            try:
                a_pen.writerow((job['title'], "", "", ""))
            except:
                print("Error")
        print('File created')
 
hh_parse (base_url)
files_writer(hh_parse(base_url))

я решил сделать так но есть одно но ссылку он все равно не выдает а если ее закоментить то все работает

Новые блоги и статьи Все статьи Все блоги /
Установка Qt Creator для C и C++: ставим среду, CMake и MinGW без фреймворка Qt 8Observer8 05.04.2026 Среду разработки Qt Creator можно установить без фреймворка Qt. Есть отдельный репозиторий для этой среды: https:/ / github. com/ qt-creator/ qt-creator, где можно скачать установщик, на вкладке Releases:. . .	AkelPad-скрипты, структуры, и немного лирики.. testuser2 05.04.2026 Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .	Отображение реквизитов в документе по условию и контроль их заполнения Maks 04.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеСпецтехники", разработанного в конфигурации КА2. Данный документ берёт данные из другого нетипового документа. . .	Фото всей Земли с борта корабля Orion миссии Artemis II kumehtar 04.04.2026 Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .
Вывод диалогового окна перед закрытием, если документ не проведён Maks 04.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .	Программный контроль заполнения реквизитов табличной части документа Maks 02.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: 1. Реализовать контроль заполнения реквизита. . .	wmic не является внутренней или внешней командой Maks 02.04.2026 Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/	Программная установка даты и запрет ее изменения Maks 02.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .

Выдает ошибку ERROR:__main__:Error parsing job listing

Выдает ошибку ERROR:main:Error parsing job listing