Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.56/9: Рейтинг темы: голосов - 9, средняя оценка - 4.56
0 / 0 / 0
Регистрация: 20.12.2020
Сообщений: 23

Не могу получить новые данные при парсинге сайта после обновления страницы

20.01.2022, 21:39. Показов 1975. Ответов 1

Студворк — интернет-сервис помощи студентам
Делаю парсер для фриланс биржи, чтобы получать уведомления о новых заказах.
Логика такая:
- парсер проходит первый раз, получает все заказы и записывает их в словарь,
- далее идет второй запрос на получение новых записей, где должно проходить сравнение старых и новых данных, и вывод тех заданий которых ранее не было.

не могу понять как реализовать сравнение и вывод нужной мне информации

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
import requests
from bs4 import BeautifulSoup
import time
import json
 
 
headers = {
    "Accept": "*/*",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.85 YaBrowser/21.11.4.730 Yowser/2.5 Safari/537.36"
}
 
 
def parse():
    while True:
        link = 'https://www.weblancer.net/jobs/html-verstka-32/'
        responce = requests.get(link, headers=headers).text
        with open("index.html", "w", encoding="utf-8-sig") as file:
            file.write(responce)
        # with open("index.html", encoding="utf-8-sig") as file:
        #     responce = file.read()
        soup = BeautifulSoup(responce, 'html.parser')
 
        #получаю блок с заданиями
 
        block = soup.find('div', class_="divided_rows")
 
        #получаю все задания
 
        exercise = block.find_all('div', class_="col-sm-10")
 
        #создаю два словаря
        #dictionary_exercise - будут записываться все значения пришедшие с сайта,
        #all_dictionary_exercise значения которые будут проверяться с теми что пришли с сайта
 
        dictionary_exercise = {}
        all_dictionary_exercise = {}
 
        # прохожу по всем заданиям получаю заголовок, текст, ссылку
        for item in exercise:
            item_title = item.find('div', class_="title").text
            item_text = item.find('div', class_="text_field").text
            item_link_all = item.find_all('a', class_="show_visited")
            for item_link_href in item_link_all:
                href = item_link_href.get('href')
 
            #записываю полученные данные в словарь all_dictionary_exercise
 
            dictionary_exercise["Задание"] = item_title
            dictionary_exercise["Текст задания"] = item_text
            dictionary_exercise["Cсылка"] = f"https://www.weblancer.net{href}"
 
            all_dictionary_exercise[item_title] = dictionary_exercise
 
            #проверяю есть словарь new_all_dictionary_exercise (делаю чтобы получить все данные первый рас)
 
            if 'new_all_dictionary_exercise' not in locals():
                # print(all_dictionary_exercise)
                pass
            else:
                #данное условие выполняеться при втором запросе когда надо сравнить изменения на сайте
                # проверяю соответствуют ли ключи в старом словаре и тем что пришло с сайта
                # если ключи соответствуют то ни чего не происходит если нет то должно выводиться то что не соответствует
                for item in all_dictionary_exercise:
                    print(item)
                    if item in new_all_dictionary_exercise:
                    #     print(all_dictionary_exercise[item])
                        pass
 
                    else:
                        print(all_dictionary_exercise[item])
 
        # создаю словарь где будут храниться значения после каждого прохождения
        new_all_dictionary_exercise={}
        for i in all_dictionary_exercise:
            new_all_dictionary_exercise[i]=all_dictionary_exercise[i]
        time.sleep(10);
 
parse()
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
20.01.2022, 21:39
Ответы с готовыми решениями:

Ошибка при парсинге страницы сайта
В методе онклик пишу: public void onClick(View v) { Document doc = null; try { doc =...

Проблемы при парсинге страницы внутреннего поиска сайта
Сама страница поиска имеет вид https://site.com/search. Если её просто загрузить она будет без результатов поиска. Естественно. Так откуда...

Работа с кодом страницы при парсинге данных с сайта в excel
Доброе утро! Обращаюсь с очередной просьбой помочь в решении вопроса, который сам не смог решить полностью. При наличии двух аргументов:...

1
148 / 111 / 37
Регистрация: 28.11.2013
Сообщений: 383
21.01.2022, 09:09
Вам надо вытащить обнуление словарей из цикла(хватит из одного словаря, но сделать его вложенным). В цикле делать проверку, например по item_text - если уже был такой, то ничего не делать, иначе добавить новый вложенный словарь.
Python
1
2
3
4
5
6
7
8
dictionary_exercise = {}
while True:
....
    ...
    if item_title in dictionary_exercise:
        print("Такая новость уже была")
    else:
        dictionary_exercise[item_title] ={"тест задания": item_text, "ссылка": f"https://www.weblancer.net{href}"}
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
21.01.2022, 09:09
Помогаю со студенческими работами здесь

Проблемы при парсинге статьи. Удаляются некоторые данные при сохранении полученной страницы
Здравствуйте. Наткнулся на интересную защиту от парсинга. Получаю страницу с помощью WebBrowser или CefSharp. Таким образом JS...

Получить все элементы одного класса при парсинге сайта
Доброго времени суток. Проблема заключается в том что при парсинге сайта я получаю только последний элемент, хотя они мне нужны все. ...

Перемешивание строк таблицы после обновления страницы сайта
Подскажите пожл как сделать, чтобы строки таблицы html <tr> перемешивались при каждом обновлении страницы сайта?

Пропадают данные добавленные через js после обновления страницы
Добрый вечер, коллеги, нужна ваша помощь решить затруднение... Есть страница с формой для заполнения пользователем и пустая таблица, в...

Получить данные по посещениям страницы сайта
Всем привет. Как получить данные пол\возраст в Google Analytics для определенных страниц сайта? ( и если можно вариант реализации через...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru