Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
0 / 0 / 0
Регистрация: 13.06.2023
Сообщений: 3

Выдает ошибку ERROR:__main__:Error parsing job listing

22.06.2023, 17:06. Показов 542. Ответов 2

Студворк — интернет-сервис помощи студентам
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
import requests
import csv
from bs4 import BeautifulSoup
import fake_useragent
import logging
 
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)
 
 
def hh_parse(base_url, headers):
    """
    Parses job listings from hh.ru for the search query 'python'.
 
    :param base_url: Base URL for job search.
    :type base_url: str
    :param headers: HTTP headers for request.
    :type headers: dict
    :return: List of job listings.
    :rtype: list
    """
 
    # Initialize variables
    jobs = [ ]
    urls = [ base_url ]
    session = requests.Session()
    user_agent = fake_useragent.UserAgent().random
    headers [ 'User-Agent' ] = user_agent
 
    # Send initial request to get number of pages
    request = session.get(base_url, headers=headers)
    if request.status_code == 200:
        soup = BeautifulSoup(request.content, 'lxml')
        try:
            pagination = soup.find_all('a', attrs={'data-qa': 'pager-page'})
            count_pages = int(pagination [ -1 ].text)
            for i in range(count_pages):
                url = f'https://hh.ru/search/vacancy?area=1&search_period=3&text=python&page={i}'
                if url not in urls:
                    urls.append(url)
        except:
            logger.error("Error getting number of pages.")
            return jobs
 
        # Loop through each page and parse job listings
        for url in urls [ :-1 ]:
            logger.info("Parsing page: %s", url)
            request = session.get(url, headers=headers)
            soup = BeautifulSoup(request.content, 'lxml')
            divs = soup.find_all('div', attrs={'class': 'vacancy-serp-item-body'})
            for div in divs:
                try:
                    title = div.find('a', attrs={'data-qa': 'serp-item__title'}).text
                    href = div.find('a', attrs={'data-qa': 'vacancy-serp__vacancy-title'}) [ 'href' ]
                    jobs.append({
                        'title': title,
                        'href': href
                    })
                except:
                    logger.error("Error parsing job listing.")
                    pass
        logger.info("Job listings parsed: %s", len(jobs))
    else:
        logger.error("Error sending request to hh.ru.")
 
    return jobs
 
 
def write_to_csv(jobs):
    """
    Writes job listings to a CSV file.
 
    :param jobs: List of job listings.
    :type jobs: list
    """
 
    with open('parsed_jobs.csv', 'w', newline='') as file:
        writer = csv.writer(file, delimiter=',')
        for job in jobs:
            try:
                writer.writerow((job [ 'title' ], job [ 'href' ]))
            except:
                logger.error("Error writing job listing to CSV.")
        logger.info("Job listings written to CSV file.")
 
 
# Define base URL and headers for request
base_url = 'https://hh.ru/search/vacancy?area=1&search_period=3&text=python&page=0'
headers = {'User-Agent': ''}
 
# Parse job listings and write to CSV file
jobs = hh_parse(base_url, headers)
write_to_csv(jobs)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
22.06.2023, 17:06
Ответы с готовыми решениями:

Выдает ошибку при компиляции math domain error
Выдает ошибку при компиляции(math domain error) на 8 строчке где acos from math import sqrt,pow,acos n = 4 a = 7.5 h = 10 R =...

Выдаёт ошибку: acos DOMAIN error,полсе нажатия окей,ещё одну ошибку pow OWERFLAW ERROR
Здравствуйте! подскажите пожалуйста где ошибка в коде. Выдаёт ошибку: acos DOMAIN error,полсе нажатия окей,ещё одну ошибку pow...

Выдает ошибку Parse error: syntax error, unexpected '$login' (T_VARIABLE)
Выдает ошибку Parse error: syntax error, unexpected '$login' (T_VARIABLE) in C:\Apache24\htdocs\site\reg\save_user.php on line 20 для...

2
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,694
Записей в блоге: 29
22.06.2023, 19:14
Цитата Сообщение от mag590 Посмотреть сообщение
except:
                    logger.error("Error parsing job listing.")
                    pass
пасс тут зачем?
Перехвати исключение конкретное и выведи его, чтобы понять в чем дело
1
0 / 0 / 0
Регистрация: 13.06.2023
Сообщений: 3
22.06.2023, 20:21  [ТС]
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
import requests
import csv
from bs4 import BeautifulSoup as bs
import fake_useragent
# маскируемся под юзера
user = fake_useragent.UserAgent().random
headers1 = {'user-agent': user}
# стандартная страница для парсера
base_url = 'https://hh.ru/search/vacancy?area=1&search_period=3&text=python&page=0'
 
 
# noinspection PyBroadException
def hh_parse(base_url):
    # noinspection PyGlobalUndefined
    global url
    jobs = []
    urls = [base_url]
    session = requests.Session()  # иммулирует действия одного пользователя, а не разные запросы
    request = session.get(base_url, headers=headers1)
    # проверка данных, которые отдает нам сервер
    if request.status_code == 200:  # код успешного запроса
        # обработка полученных данных
        soup = bs(request.content,  # ответ который нам отправляет сервер
                  'lxml')  # старый парсер 'html.parser' #разбивает ответ на блоки html
        #      print(soup) # весь ответ, если нужно
        # проверяем кол-во страниц на сайте для парсинга нескольких страниц
        try:
            pagination = soup.find_all('a', attrs={'data-qa': 'pager-page'})
            count_pages = int(pagination[-1].text)
            for i in range(count_pages):
                url = f'https://hh.ru/search/vacancy?area=1&search_period=3&text=python&page={i}'
                if url not in urls:
                    urls.append(url)
        except:
            print('or')
        for url in urls[:-1]:
 
            print(url)
        request = session.get(url, headers=headers1)  # ответ от сервера
        soup = bs(request.content,  # ответ который нам отправляет сервер
                  'lxml')  # библиотека парсинга разбивает ответ на блоки html
        # разбиваем ответ на блоки по шаблону
        print(type(soup))
 
        divs = soup.find_all('div', attrs={'class': 'vacancy-serp-item-body'})
        print('div' + str(len(divs)))
        # обрабатываем каждый блок
        for div in divs:
            print(div)
            try:
                # title1 = div.find('a', attrs={'data-qa': 'vacancy-serp__vacancy-title'})
                # #отображает полный html код блоки <a />
                title2 = div.find('a', attrs={'data-qa': 'serp-item__title'}).text  # вакансия
                href = div.find('a', attrs ={'data-qa': 'vacancy-serp__vacancy-title'})['href'] #ссылка на вакансию
                company = div.find('a', attrs={'data-qa': 'vacancy-serp__vacancy-employer'}).text
                jobs.append({
                    'title': title2,
                    'href': href,
                    'company': company,
                })
            except:
                print("r")
                pass
        print(jobs)
        print(len(jobs))
 
    else:
        print('DONE')
    return jobs
 
 
# noinspection PyBroadException
def files_writer(jobs):
    with open('parsed_jobs.csv', 'w', newline='') as file:
        a_pen = csv.writer(file, delimiter=',')
        for job in jobs:
            try:
                a_pen.writerow((job['title'], "", "", ""))
            except:
                print("Error")
        print('File created')
 
hh_parse (base_url)
files_writer(hh_parse(base_url))
я решил сделать так но есть одно но ссылку он все равно не выдает а если ее закоментить то все работает
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
22.06.2023, 20:21
Помогаю со студенческими работами здесь

Конструктор выдает ошибку CodeDOM parser error --- Internal Error
Делал игру, и конструктор выдает ошибку C++ CodeDOM parser error: Line 70, column: 30 --- Internal Error. С чем может быть связано? ...

При компиляции выдает ошибку [Fatal Error] Unit4.pas(10): Internal error: SY576
При компиляции выдает ошибку Unit4.pas(10): Internal error: SY576 и выделяет строку TForm4=class(TForm) ... Делфи...

Компилятор выдаёт ошибку error C2059: syntax error : '}'
Компилятор visual studio 2010 выдаёт ошибку error C2059: syntax error : '}' в строке 91. Самая последняя строка #include &lt;iostream&gt;...

При выполнении кода выдаёт ошибку: Parse error: syntax error, unexpected end of file
&lt;?php $url = 'http://192.168.162.129/bWAPP/login.php'; $passwords = array( 'Qwwws', 'but', 'bug' ); ...

Функция на mysqli выдает ошибку Fatal error: Uncaught Error: Call to undefined method mysqli_stmt::get_result()
Здравствуйте, уважаемые форумчане! На OpenServer все работает, никаких ошибок. На хосте появляется такая ошибка: Fatal error: Uncaught...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Установка Qt Creator для C и C++: ставим среду, CMake и MinGW без фреймворка Qt
8Observer8 05.04.2026
Среду разработки Qt Creator можно установить без фреймворка Qt. Есть отдельный репозиторий для этой среды: https:/ / github. com/ qt-creator/ qt-creator, где можно скачать установщик, на вкладке Releases:. . .
AkelPad-скрипты, структуры, и немного лирики..
testuser2 05.04.2026
Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .
Отображение реквизитов в документе по условию и контроль их заполнения
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеСпецтехники", разработанного в конфигурации КА2. Данный документ берёт данные из другого нетипового документа. . .
Фото всей Земли с борта корабля Orion миссии Artemis II
kumehtar 04.04.2026
Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .
Вывод диалогового окна перед закрытием, если документ не проведён
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .
Программный контроль заполнения реквизитов табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: 1. Реализовать контроль заполнения реквизита. . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru