Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 Аватар для Amaya0011
0 / 0 / 0
Регистрация: 01.03.2019
Сообщений: 22

Парсинг сайтов с поиском товаров

14.12.2024, 20:26. Показов 1204. Ответов 1

Студворк — интернет-сервис помощи студентам
доброго времени суток!
прошу помочь с решением поставленной задачи, а то я совсем уже в коде намудрила...

задача:
у меня есть документ .xlsx, в котором хранятся три колонки: артикул, штрихкод и название товара. но названия товаров написаны с ошибками, поэтому задача усложняется.
сама задача состоит в том, что нужно переходить по ссылке магазина, искать по названию товара, который написан с ошибкой, и добавлять в документ в новую колонку цену на найденный на сайте товар и ссылку на него в новой колонке, если не найдено оставлять пустым. первый ряд это название колонок, поэтому там будет название магазина заранее прописанное в коде, но так как у нас две колонки из одного магазина заполняются(цена и ссылка), то и название колонки должно быть соединено в одну

вот пример таблицы:

Артикул Штрих Назва Товару
14839 4823082402670 Наповнювач Природа Sani Pet Силікагелевий 5л
16706 4820083908910 Корм Клуб 4 Лапи Вологі Преміум курка в соусі для дорослих котів 100г
10567 4820215364041 Корм Optimeal + для котів з тріскою та овочами в желе 85г

буду очень благодарна если сможете помочь!

и вот код, которым я пыталась решить эту задачу:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
import openpyxl
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from seleniumbase import SB
from thefuzz import process, fuzz
import time
 
 
# List of websites and stores
websites = {
    'atb': 'https://www.atbmarket.com/',
    'silpo': 'https://silpo.ua/',
    'varus': 'https://varus.ua/',
    'pethouse': 'https://pethouse.ua/ua/',
    'masterzoo': 'https://masterzoo.ua/ua/'
}
 
 
def fuzzy_search(available_products, product_name):
    """Perform fuzzy search to find the closest match."""
    best_match = process.extractOne(product_name, available_products, scorer=fuzz.partial_ratio)
    return best_match
 
 
def handle_captcha(sb):
    """Handle CAPTCHA, if present."""
    try:
        if sb.is_element_visible('input[value*="Verify"]'):
            print("Clicking Verify")
            sb.click('input[value*="Verify"]')
            print("Clicked Verify")
        else:
            print("Clicking uc_gui_click_captcha")
            sb.uc_gui_click_captcha()
            print("Clicked uc_gui_click_captcha")
    except Exception as e:
        print(f"CAPTCHA handling error: {e}")
 
 
def search_and_fetch_product(driver, product_name, store_url, store_name):
    """Search for the product on the website and fetch details from the product page."""
    print(f"Searching for '{product_name}' on {store_url}...")
    driver.get(store_url)
    time.sleep(3)
 
    try:
        webdriver.ActionChains(driver).send_keys(Keys.ESCAPE).perform()
    except Exception as e:
        print(f"No banner to close or error: {e}")
 
    with SB(uc=True) as sb:
        try:
            handle_captcha(sb)
            search_box = WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.XPATH, "//input[@type='text'] | //input[@type='search']"))
            )
            search_box.clear()
            search_box.send_keys(product_name)
            search_box.send_keys(Keys.RETURN)
            time.sleep(5)
 
            driver.execute_script("window.scrollBy(0, 300);")
            time.sleep(2)
 
            product_elements = driver.find_elements(By.CLASS_NAME, "product-name")  # Adjust as per site
            available_products = [prod.text for prod in product_elements]
 
            if not available_products:
                print(f"No products found for '{product_name}' on {store_url}.")
                add_to_excel(store_name, product_name, "Not Found", "Not Found")
                return False
 
            best_match = fuzzy_search(available_products, product_name)
            print(f"Best match for '{product_name}': {best_match}")
 
            if best_match:
                match_element = next(
                    prod for prod in product_elements if prod.text == best_match[0]
                )
                link = match_element.find_element(By.TAG_NAME, "a").get_attribute("href")
                driver.get(link)
                time.sleep(3)
 
                try:
                    price = driver.find_element(By.CLASS_NAME, "product-price").text  # Adjust as per site
                except Exception:
                    price = "Price Not Found"
 
                print(f"Found '{product_name}' - Price: {price}, Link: {link}")
                add_to_excel(store_name, product_name, price, link)
                return True
            else:
                print(f"No suitable match for '{product_name}' on {store_url}.")
                add_to_excel(store_name, product_name, "Not Found", "Not Found")
                return False
        except Exception as e:
            print(f"Error while processing '{product_name}' on {store_url}: {e}")
            add_to_excel(store_name, product_name, "Error", "Error")
            return False
 
 
def add_to_excel(store_name, product_name, price, link):
    """Add product details to Excel."""
    try:
        df = pd.read_excel("output.xlsx")
    except FileNotFoundError:
        df = pd.DataFrame(columns=["Артикул", "Штрих", "Назва Товару", f"{store_name}_Цена", f"{store_name}_Ссылка"])
 
    existing_row = df.loc[df['Назва Товару'] == product_name]
    if not existing_row.empty:
        df.loc[existing_row.index, f"{store_name}_Цена"] = price
        df.loc[existing_row.index, f"{store_name}_Ссылка"] = link
    else:
        new_row = {
            "Артикул": "",
            "Штрих": "",
            "Назва Товару": product_name,
            f"{store_name}_Цена": price,
            f"{store_name}_Ссылка": link
        }
        df = pd.concat([df, pd.DataFrame([new_row])], ignore_index=True)
 
    df.to_excel("output.xlsx", index=False)
    print(f"Excel updated for '{product_name}'.")
 
 
def process_excel(file_name, websites):
    """Process Excel file and search products on websites."""
    df = pd.read_excel(file_name)
    driver = webdriver.Chrome()
    try:
        for index, row in df.iterrows():
            product_name = row['Назва Товару']
            words = product_name.split()
 
            for store_name, store_url in websites.items():
                while words:
                    current_name = " ".join(words)
                    if search_and_fetch_product(driver, current_name, store_url, store_name):
                        break
                    words.pop()  # Remove the last word
    finally:
        driver.quit()
 
 
# Start processing
process_excel("test-19.xlsx", websites)
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
14.12.2024, 20:26
Ответы с готовыми решениями:

парсинг сайтов
Здравствуйте форумчане, у меня вопрос,к примеру есть сайт wday.ru, мне нужно спарсить все новости во всех разделах ../moda-shopping/.. и...

Парсинг сайтов
Приветствую! Пишу парсер сайтов, задумка следующая - в это нелёгкое время мой кот всё равно хочет ходить в туалет, а народ нищает, поэтому...

Парсинг сайтов
Добрый день, такая ситуация: делаю парсер нескольких сайтов. парсю с помощью simple_html_dom.php при открытии сайта берем с...

1
 Аватар для Excalibra
5 / 3 / 2
Регистрация: 21.11.2024
Сообщений: 10
Записей в блоге: 1
21.12.2024, 04:30
1. Если на сайте появляется CAPTCHA, вы правильно попытались реализовать обработку, но рекомендую использовать более устойчивые способы обхода, например, использование сервисов для автоматического решения CAPTCHA (если это допустимо).

2. Вы правильно применяете fuzzy-методы для поиска. Однако, рекомендую также добавить проверку на сходство названия товара, чтобы избежать ситуаций, когда из-за незначительной ошибки не удается найти нужный продукт.

3. Вместо постоянного чтения и записи в файл Excel после каждого товара, можно улучшить производительность, собрав все данные в список и записав их в файл после завершения обработки всех товаров. Это уменьшит количество операций с файлом.

4. Также стоит учесть, что в случае ошибки на одном из сайтов (например, если товар не найден), можно добавить логирование ошибок, чтобы позже было проще анализировать, где именно произошла ошибка.

5. Вы можете добавить возможность обработки разных вариантов написания одного и того же товара (например, с учетом синонимов или типов упаковки) для улучшения поиска.

Удачи в решении задачи!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
21.12.2024, 04:30
Помогаю со студенческими работами здесь

Парсинг сайтов
Здравствуйте, подскажите хорошую библиотеку для парсинга сайтов и желатьльно ссылку на документацию, заранее спасибо!

Парсинг сайтов
Здравствуйте! Изучаю С++ и сейчас хочу заняться изучением парсинга сайтов. Посоветуйте уроки/учебники, которые помогли бы в изучении этой...

Парсинг сайтов
Подскажите пожалуйста как можно парсить сайты с помощью json, webclient и htmlagility. Прочитал множество статей, но там идет упор на XML.

Парсинг сайтов
Создать массив числовых значений (размером> 30), полученных на основе парсинга страницы. Страна, численность населения;

Парсинг товаров и изображений
Доброго дня! Написал скриптик, парсящий данные о товарах с другого сайта. Что он делает: 1. С помощью PHPExcel загружает...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Функция заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
10 пpимет, которые всегда сбываются
Maks 31.03.2026
1. Чтобы, наконец, пришла маршрутка, надо закурить. Если сигарета последняя, маршрутка придет еще до второй затяжки даже вопреки расписанию. 2. Нaдоели зима и снег? Не надо переезжать. Достаточно. . .
Перемещение выделенных строк ТЧ из одного документа в другой
Maks 31.03.2026
Реализация из решения ниже выполнена на примере нетипового документа "ВыдачаОборудованияНаСпецтехнику" с единственной табличной частью "ОборудованиеИКомплектующие" разработанного в конфигурации КА2. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru