Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.56/9: Рейтинг темы: голосов - 9, средняя оценка - 4.56
0 / 0 / 0
Регистрация: 20.12.2020
Сообщений: 23

Не могу получить новые данные при парсинге сайта после обновления страницы

20.01.2022, 21:39. Показов 1925. Ответов 1

Студворк — интернет-сервис помощи студентам
Делаю парсер для фриланс биржи, чтобы получать уведомления о новых заказах.
Логика такая:
- парсер проходит первый раз, получает все заказы и записывает их в словарь,
- далее идет второй запрос на получение новых записей, где должно проходить сравнение старых и новых данных, и вывод тех заданий которых ранее не было.

не могу понять как реализовать сравнение и вывод нужной мне информации

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
import requests
from bs4 import BeautifulSoup
import time
import json
 
 
headers = {
    "Accept": "*/*",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.85 YaBrowser/21.11.4.730 Yowser/2.5 Safari/537.36"
}
 
 
def parse():
    while True:
        link = 'https://www.weblancer.net/jobs/html-verstka-32/'
        responce = requests.get(link, headers=headers).text
        with open("index.html", "w", encoding="utf-8-sig") as file:
            file.write(responce)
        # with open("index.html", encoding="utf-8-sig") as file:
        #     responce = file.read()
        soup = BeautifulSoup(responce, 'html.parser')
 
        #получаю блок с заданиями
 
        block = soup.find('div', class_="divided_rows")
 
        #получаю все задания
 
        exercise = block.find_all('div', class_="col-sm-10")
 
        #создаю два словаря
        #dictionary_exercise - будут записываться все значения пришедшие с сайта,
        #all_dictionary_exercise значения которые будут проверяться с теми что пришли с сайта
 
        dictionary_exercise = {}
        all_dictionary_exercise = {}
 
        # прохожу по всем заданиям получаю заголовок, текст, ссылку
        for item in exercise:
            item_title = item.find('div', class_="title").text
            item_text = item.find('div', class_="text_field").text
            item_link_all = item.find_all('a', class_="show_visited")
            for item_link_href in item_link_all:
                href = item_link_href.get('href')
 
            #записываю полученные данные в словарь all_dictionary_exercise
 
            dictionary_exercise["Задание"] = item_title
            dictionary_exercise["Текст задания"] = item_text
            dictionary_exercise["Cсылка"] = f"https://www.weblancer.net{href}"
 
            all_dictionary_exercise[item_title] = dictionary_exercise
 
            #проверяю есть словарь new_all_dictionary_exercise (делаю чтобы получить все данные первый рас)
 
            if 'new_all_dictionary_exercise' not in locals():
                # print(all_dictionary_exercise)
                pass
            else:
                #данное условие выполняеться при втором запросе когда надо сравнить изменения на сайте
                # проверяю соответствуют ли ключи в старом словаре и тем что пришло с сайта
                # если ключи соответствуют то ни чего не происходит если нет то должно выводиться то что не соответствует
                for item in all_dictionary_exercise:
                    print(item)
                    if item in new_all_dictionary_exercise:
                    #     print(all_dictionary_exercise[item])
                        pass
 
                    else:
                        print(all_dictionary_exercise[item])
 
        # создаю словарь где будут храниться значения после каждого прохождения
        new_all_dictionary_exercise={}
        for i in all_dictionary_exercise:
            new_all_dictionary_exercise[i]=all_dictionary_exercise[i]
        time.sleep(10);
 
parse()
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
20.01.2022, 21:39
Ответы с готовыми решениями:

Ошибка при парсинге страницы сайта
В методе онклик пишу: public void onClick(View v) { Document doc = null; try { doc =...

Проблемы при парсинге страницы внутреннего поиска сайта
Сама страница поиска имеет вид https://site.com/search. Если её просто загрузить она будет без результатов поиска. Естественно. Так откуда...

Работа с кодом страницы при парсинге данных с сайта в excel
Доброе утро! Обращаюсь с очередной просьбой помочь в решении вопроса, который сам не смог решить полностью. При наличии двух аргументов:...

1
148 / 111 / 37
Регистрация: 28.11.2013
Сообщений: 383
21.01.2022, 09:09
Вам надо вытащить обнуление словарей из цикла(хватит из одного словаря, но сделать его вложенным). В цикле делать проверку, например по item_text - если уже был такой, то ничего не делать, иначе добавить новый вложенный словарь.
Python
1
2
3
4
5
6
7
8
dictionary_exercise = {}
while True:
....
    ...
    if item_title in dictionary_exercise:
        print("Такая новость уже была")
    else:
        dictionary_exercise[item_title] ={"тест задания": item_text, "ссылка": f"https://www.weblancer.net{href}"}
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
21.01.2022, 09:09
Помогаю со студенческими работами здесь

Проблемы при парсинге статьи. Удаляются некоторые данные при сохранении полученной страницы
Здравствуйте. Наткнулся на интересную защиту от парсинга. Получаю страницу с помощью WebBrowser или CefSharp. Таким образом JS...

Получить все элементы одного класса при парсинге сайта
Доброго времени суток. Проблема заключается в том что при парсинге сайта я получаю только последний элемент, хотя они мне нужны все. ...

Перемешивание строк таблицы после обновления страницы сайта
Подскажите пожл как сделать, чтобы строки таблицы html <tr> перемешивались при каждом обновлении страницы сайта?

Пропадают данные добавленные через js после обновления страницы
Добрый вечер, коллеги, нужна ваша помощь решить затруднение... Есть страница с формой для заполнения пользователем и пустая таблица, в...

Получить данные по посещениям страницы сайта
Всем привет. Как получить данные пол\возраст в Google Analytics для определенных страниц сайта? ( и если можно вариант реализации через...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
Установка Emscripten SDK (emsdk) и CMake на Windows для сборки C и C++ приложений в WebAssembly (Wasm)
8Observer8 30.01.2026
Чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. Система контроля версиями Git. . .
Подключение Box2D v3 к SDL3 для Android: физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
Влияние грибов на сукцессию
anaschu 26.01.2026
Бифуркационные изменения массы гриба происходят тогда, когда мы уменьшаем массу компоста в 10 раз, а скорость прироста биомассы уменьшаем в три раза. Скорость прироста биомассы может уменьшаться за. . .
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru