Не могу получить новые данные при парсинге сайта после обновления страницы

@Petrsav · Регистрация: 20.12.2020

Студворк — интернет-сервис помощи студентам

Делаю парсер для фриланс биржи, чтобы получать уведомления о новых заказах.
Логика такая:
- парсер проходит первый раз, получает все заказы и записывает их в словарь,
- далее идет второй запрос на получение новых записей, где должно проходить сравнение старых и новых данных, и вывод тех заданий которых ранее не было.

не могу понять как реализовать сравнение и вывод нужной мне информации

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
import requests
from bs4 import BeautifulSoup
import time
import json
 
 
headers = {
    "Accept": "*/*",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.85 YaBrowser/21.11.4.730 Yowser/2.5 Safari/537.36"
}
 
 
def parse():
    while True:
        link = 'https://www.weblancer.net/jobs/html-verstka-32/'
        responce = requests.get(link, headers=headers).text
        with open("index.html", "w", encoding="utf-8-sig") as file:
            file.write(responce)
        # with open("index.html", encoding="utf-8-sig") as file:
        #     responce = file.read()
        soup = BeautifulSoup(responce, 'html.parser')
 
        #получаю блок с заданиями
 
        block = soup.find('div', class_="divided_rows")
 
        #получаю все задания
 
        exercise = block.find_all('div', class_="col-sm-10")
 
        #создаю два словаря
        #dictionary_exercise - будут записываться все значения пришедшие с сайта,
        #all_dictionary_exercise значения которые будут проверяться с теми что пришли с сайта
 
        dictionary_exercise = {}
        all_dictionary_exercise = {}
 
        # прохожу по всем заданиям получаю заголовок, текст, ссылку
        for item in exercise:
            item_title = item.find('div', class_="title").text
            item_text = item.find('div', class_="text_field").text
            item_link_all = item.find_all('a', class_="show_visited")
            for item_link_href in item_link_all:
                href = item_link_href.get('href')
 
            #записываю полученные данные в словарь all_dictionary_exercise
 
            dictionary_exercise["Задание"] = item_title
            dictionary_exercise["Текст задания"] = item_text
            dictionary_exercise["Cсылка"] = f"https://www.weblancer.net{href}"
 
            all_dictionary_exercise[item_title] = dictionary_exercise
 
            #проверяю есть словарь new_all_dictionary_exercise (делаю чтобы получить все данные первый рас)
 
            if 'new_all_dictionary_exercise' not in locals():
                # print(all_dictionary_exercise)
                pass
            else:
                #данное условие выполняеться при втором запросе когда надо сравнить изменения на сайте
                # проверяю соответствуют ли ключи в старом словаре и тем что пришло с сайта
                # если ключи соответствуют то ни чего не происходит если нет то должно выводиться то что не соответствует
                for item in all_dictionary_exercise:
                    print(item)
                    if item in new_all_dictionary_exercise:
                    #     print(all_dictionary_exercise[item])
                        pass
 
                    else:
                        print(all_dictionary_exercise[item])
 
        # создаю словарь где будут храниться значения после каждого прохождения
        new_all_dictionary_exercise={}
        for i in all_dictionary_exercise:
            new_all_dictionary_exercise[i]=all_dictionary_exercise[i]
        time.sleep(10);
 
parse()

@Skryp · 21.01.2022, 09:09

Вам надо вытащить обнуление словарей из цикла(хватит из одного словаря, но сделать его вложенным). В цикле делать проверку, например по item_text - если уже был такой, то ничего не делать, иначе добавить новый вложенный словарь.

Python
1
2
3
4
5
6
7
8
dictionary_exercise = {}
while True:
....
    ...
    if item_title in dictionary_exercise:
        print("Такая новость уже была")
    else:
        dictionary_exercise[item_title] ={"тест задания": item_text, "ссылка": f"https://www.weblancer.net{href}"}

Новые блоги и статьи Все статьи Все блоги /
Контроль заполнения и очистка дат в зависимости от значения перечислений Maks 12.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .	Архитектура слоя интернета для сервера-слоя. Hrethgir 11.04.2026 В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .	Подстановка значения реквизита справочника в табличную часть документа Maks 10.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .	Очистка реквизитов документа при копировании Maks 09.04.2026 Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий anaschu 08.04.2026 https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI	Блокировка документа от изменений, если он открыт у другого пользователя Maks 08.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .	Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка. Hrethgir 08.04.2026 Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .	Модель ЗдрввоСохранения 7: больше работников, больше ресурсов. anaschu 08.04.2026 работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ