Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
0 / 0 / 0
Регистрация: 05.02.2022
Сообщений: 24

Ошибка при парсинге

29.06.2022, 21:39. Показов 596. Ответов 0
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Короче есть код для парсинга сайта, первый раз он почти спарсил всё что нужно, но потом при повторных перезапусках в строке 42 он может выдавать ошибку "occupations" или в 74 "workers", а может выдать одну из них отпарсив уже несколько страниц, хотя первые разы такого не было, в чем проблема? Строки с ошибками пометил комментариями

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
import json
import time
import requests
from bs4 import BeautifulSoup
import os
from colorama import init, Fore, Back, Style
 
def fetch(url,params):
    headers = params['headers']
    body = params['body']
    if params['method']=='GET':
        return requests.get(url,headers=headers)
    if params['method']=='POST':
        return requests.post(url,headers=headers,data=body)
    return requests
 
main_page = fetch("https://uslugi.yandex.ru/api/213-moscow/get_home_rubrics?lr=213&workersCount=true", {
  "headers": {
    "accept": "application/json, text/plain, */*",
    "accept-language": "ru-RU,ru;q=0.9",
    "content-type": "application/json;charset=UTF-8",
    "sec-ch-ua": "\"Chromium\";v=\"102\", \"Opera GX\";v=\"88\", \";Not A Brand\";v=\"99\"",
    "sec-ch-ua-mobile": "?0",
    "sec-ch-ua-platform": "\"Windows\"",
    "sec-fetch-dest": "empty",
    "sec-fetch-mode": "cors",
    "sec-fetch-site": "same-origin",
    "x-app-version": "2.2447.0-15f89d2af056750a15086038994cba0e5bfeea51.0",
    "x-csrf-token": "da2f836cc33b86d110f223c0f134d10fd47f75e1:1656503032",
    "x-expected-puid": "",
    "x-requested-with": "XMLHttpRequest",
    "x-retpath-y": "https://uslugi.yandex.ru/213-moscow/catalog?rubric=%2Fkrasota",
    "cookie": "yandexuid=2585937781656503024; i=gWrntQ7lN3x3Uw5qP0Qz15+IdJQ5aqQRg67OJMWpzHPOsjaH3cLe4bx1+Vp/twBpHbZv9BdJW9noXS+kKVTl8HPt7l0=; _yasc=2w/cmb9EmlLja6ze+YvsuHHaSC1fsXOTMKq4gKynm/cOzsMs; yuidss=2585937781656503024; ymex=1971863025.yrts.1656503025; gdpr=0; _ym_uid=1656503024996753070; _ym_d=1656503025; _ym_visorc=b; spravka=dD0xNjU2NTAzMDMyO2k9OTUuMzEuMTY0LjE0NztEPTkzRTg4RUU2M0VBMTg2NjNFNTQzNTNCREIyNEUzMTVFNjU1QTVGMjI1NzU2NDNGRjMxRTk3NTE2NEYyN0Y4Q0VBNzBCQ0M2NDt1PTE2NTY1MDMwMzI4NjY4NzEzNjk7aD0zYThmYTliZWYzNTU1NDMzZjk0MmM0NDMyNjAwYTk5Mg==; _ym_isad=2",
    "Referer": "https://uslugi.yandex.ru/213-moscow/catalog?rubric=%2Fkrasota",
    "Referrer-Policy": "strict-origin-when-cross-origin",
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.115 Safari/537.36 OPR/88.0.4412.65'
  },
  "body": "{\"data\":{\"params\":{}}}",
  "method": "POST"
})
for i in range(58):
  name_for_dir = main_page.json()['occupations'][8]['specializations'][i]['name'] # Ошибка occupations
  os.mkdir(f'{name_for_dir}')
  print('\t'+Fore.RED + main_page.json()['occupations'][8]['specializations'][i]['name']+Fore.RESET)
  krasota_specializations_id = main_page.json()['occupations'][8]['specializations'][i]['numberId']
  krasota_specializations_seoID = 'https://uslugi.yandex.ru/api/213-moscow/category' + main_page.json()['occupations'][8]['specializations'][i]['seoId']
  for page in range(10):
    print('\t'+Fore.RED+f'Page: {page} from 10'+Fore.RESET)
    workers = fetch(f"{krasota_specializations_seoID}--{krasota_specializations_id}?p={page}", {
      "headers": {
        "accept": "application/json, text/plain, */*",
        "accept-language": "ru-RU,ru;q=0.9",
        "sec-ch-ua": "\"Chromium\";v=\"102\", \"Opera GX\";v=\"88\", \";Not A Brand\";v=\"99\"",
        "sec-ch-ua-mobile": "?0",
        "sec-ch-ua-platform": "\"Windows\"",
        "sec-fetch-dest": "empty",
        "sec-fetch-mode": "cors",
        "sec-fetch-site": "same-origin",
        "x-app-version": "2.2447.0-15f89d2af056750a15086038994cba0e5bfeea51.0",
        "x-csrf-token": "5d9ba3e6858087eb66d56266930eee265a79cf3d:1656503276",
        "x-expected-puid": "",
        "x-requested-with": "XMLHttpRequest",
        "x-retpath-y": f"{krasota_specializations_seoID}--{krasota_specializations_id}?p={page}",
        "x-uslugi-apitargeturl": f"{krasota_specializations_seoID}--{krasota_specializations_id}?p={page}",
        "cookie": "yandexuid=2585937781656503024; i=gWrntQ7lN3x3Uw5qP0Qz15+IdJQ5aqQRg67OJMWpzHPOsjaH3cLe4bx1+Vp/twBpHbZv9BdJW9noXS+kKVTl8HPt7l0=; yuidss=2585937781656503024; ymex=1971863025.yrts.1656503025; gdpr=0; _ym_uid=1656503024996753070; _ym_d=1656503025; _ym_visorc=b; spravka=dD0xNjU2NTAzMDMyO2k9OTUuMzEuMTY0LjE0NztEPTkzRTg4RUU2M0VBMTg2NjNFNTQzNTNCREIyNEUzMTVFNjU1QTVGMjI1NzU2NDNGRjMxRTk3NTE2NEYyN0Y4Q0VBNzBCQ0M2NDt1PTE2NTY1MDMwMzI4NjY4NzEzNjk7aD0zYThmYTliZWYzNTU1NDMzZjk0MmM0NDMyNjAwYTk5Mg==; _ym_isad=2; is_gdpr=0; is_gdpr_b=CNzDcxC+ew==; _yasc=/BObO2mO50Khb3LNMjsrTAvUhIW7wjC4qHpExN/rupJa65vp",
        "Referer": f"{krasota_specializations_seoID}--{krasota_specializations_id}?p={page}",
        "Referrer-Policy": "strict-origin-when-cross-origin",
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.115 Safari/537.36 OPR/88.0.4412.65'
      },
      "body": None,
      "method": "GET"
    })
    print(f"{krasota_specializations_seoID}--{krasota_specializations_id}?p={page}")
    persons = workers.json()['workers']['items'] # Ошибка workers
    for person in persons:
      person_name = persons[person]['personalInfo']['displayName']
      try:
        person_description = persons[person]['personalInfo']['description'].strip()
      except:
        person_description = ''
        continue
      person_socialLinks_appointments = persons[person]['personalInfo']['socialLinks']['appointments']
      person_socialLinks_messengers = persons[person]['personalInfo']['socialLinks']['messengers']
      person_socialLinks_other = persons[person]['personalInfo']['socialLinks']['other']
 
      person_socialLinks_appointments_list = {}
      person_socialLinks_messengers_list = {}
      person_socialLinks_other_list = {}
 
      for ln in person_socialLinks_appointments:
        first = ln
        second = person_socialLinks_appointments[ln]
        person_socialLinks_appointments_list[first] = second
      for ln in person_socialLinks_messengers:
        first = ln
        second = person_socialLinks_messengers[ln]
        person_socialLinks_messengers_list[first]= second
      for ln in person_socialLinks_other:
        first = ln
        second = person_socialLinks_other[ln]
        person_socialLinks_messengers_list[first]= second
      
      if person_socialLinks_appointments == {}:
        person_socialLinks_appointments = ''
      if person_socialLinks_messengers == {}:
        person_socialLinks_messengers = ''
      if person_socialLinks_other == {}:
        person_socialLinks_other = ''
      person_data = []
      person_data.append(
        {
          'Name: ':person_name,
          'Appointments: ':person_socialLinks_appointments_list,
          'Messangers: ': person_socialLinks_messengers_list,
          'Other Links: ': person_socialLinks_other_list,
          'Description: ': person_description
        }
      )
      print(Fore.YELLOW+'Name: '+Fore.RESET+f'{person_name}\n\n'+Fore.YELLOW+'Links:\n'+Fore.GREEN+'Appointments: '+Fore.RESET+f'{person_socialLinks_appointments}\n'+
      Fore.GREEN+'Messengers: '+Fore.RESET+f'{person_socialLinks_messengers}\n'+Fore.GREEN+'Other: '+Fore.RESET+f'{person_socialLinks_other}\n\n'+Fore.YELLOW+'Description: '+
      Fore.RESET+f'{person_description}\n')
      print(Fore.RED+'----------------------'+Fore.RESET)
      with open(f'{name_for_dir}/page_{page+1}.json','a',encoding='utf-8') as file:
        json.dump(person_data,file,indent=4,ensure_ascii=False)
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
29.06.2022, 21:39
Ответы с готовыми решениями:

Ошибка при парсинге
Здравствуйте. Пытаюсь написать простой парсер, но возникла непонятная ошибка Например, страница...

Ошибка в парсинге
Скачал urllib и bs4 решил тест провести. Код правильный,и запускается у других,только не у меня Установил через pip,питон 3.4 ...

Проблема с кодировкой при парсинге
Обучаюсь парсингу и начал писать свой собственный код. Хронология действий: - Скопировал главную страницу в html файл на свой...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
29.06.2022, 21:39
Помогаю со студенческими работами здесь

Невалидный PNG при парсинге Grab
Уважаемые программисты, помогите, пожалуйста, решить проблему. Пишу небольшой парсер, использую GRAB Загвоздка случилась с картинкой...

Почему выдает ошибку при парсинге? .find_all
qoutes = soup.find_all(class_='product-card cell-xl-4 cell-md-6 cell-xs-6').find_all(class_ = 'card-inner') for qoute in qoutes: ...

При парсинге получается не весь код страницы
Обучаюсь парсингу и заметил такую странность что в странице которую я получаю отсутствует часть кода. <div...

Ошибка при парсинге
В общем по учебе надо пропарсить tutu.ru чтобы подобрать ближайшую электричку. При парсинге столкнулся с дилеммой, из-за которой горит не...

Ошибка при парсинге на bs4 =(
Не пойму почему при парсинге гугла он не чего не находит в перемменую desc Ниже код import requests from bs4 import BeautifulSoup...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
Горе от ума
kumehtar 07.04.2026
Эта мне ментальная установка, что вот прямо сейчас, мол, мне для полного счастья не хватает (нужное вписать), и когда я этого достигну - тогда и полный кайф. Одна из самых сильных ловушек на пути. . . .
Использование значений реквизитов справочника в документе, с определенными условиями и правами
Maks 07.04.2026
1. Контроль срока действия договора Алгоритм из решения ниже реализован на примере нетипового документа "ЗаявкаНаРаботу", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если. . .
Доступность команды формы по условию
Maks 07.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: сделать доступной кнопку (команда формы "ЗавершитьСписание") при. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru