Форум программистов, компьютерный форум, киберфорум
Python: Решение задач
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
0 / 0 / 0
Регистрация: 03.09.2022
Сообщений: 1

Парсинг сайта Дикси

03.09.2022, 14:37. Показов 737. Ответов 0

Студворк — интернет-сервис помощи студентам
Если возможно подскажите, как решить данную проблему. Я создаю парсер "Дикси" на Python3 и, когда записываю наименование товаров и их вес в csv файл, слова разделяются на буквы. Что делать? Спасибо! Прикрепляю код.

Слова в excel разделяются вот так:
С,ы,р, ,Б,е,л,е,б,е,е,в,с,к,и,й, ,4,5,%



Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
import requests
from bs4 import BeautifulSoup
import lxml
import urllib3
import csv
urllib3.disable_warnings()
from fake_useragent import UserAgent
def data(city_code='21'):
    ua = UserAgent()
    headers = {
        'Accept' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36',
        'User-Agent' : ua.random
    }
    cookies = {
        'BITRIX_SM_PROJECT_REGION_ID': f'{city_code}'
    }
    # response = requests.get(url='https://dixy.ru/catalog/', headers=headers, cookies=cookies, verify=False)
    # with open('index.html', 'w', encoding='utf-8-sig') as file:
    #     file.write(response.text)
    with open('index.html', encoding='utf-8-sig') as file:
        src = file.read()
    soup = BeautifulSoup(src, 'lxml')
    all_catefories = soup.find_all(class_="dixyCatalogItem")
    for item in all_catefories:
        title_and_weight = item.find('img').get('alt').split(',')
        title_and_weight[1] = title_and_weight[1].replace('\xa0', '').strip()
        title = title_and_weight[0]
        weight = title_and_weight[1]
        with open('q.csv', 'w', encoding='utf-8-sig') as file:
            writer= csv.writer(file)
            writer.writerow(title)
            break
 
def main():
    data(city_code='21')
 
if __name__ == '__main__':
    main()
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
03.09.2022, 14:37
Ответы с готовыми решениями:

Создание карты сайта и парсинг определенного раздела сайта
Здравствуйте! Мне необходимо пропарсить раздел сайта, предварительно создав карту сайта и извлечь некоторую информацию. Т.е. мне надо...

Парсинг данных с сайта или страницы сайта
Здравствуйте, добрые люди! Есть задача спарсить данные с страницы соц сети. Или просто со страницы с помощью js. На пхп не предлагать....

Парсинг сайта
Здравствуйте. Подскажите пожалуйста. Есть необходимость получать данные со страниц сайта, нажимать там на кнопки, вводить данные. Только...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
03.09.2022, 14:37
Помогаю со студенческими работами здесь

Парсинг сайта
Доброго здравия. Есть некий сайт, на котором производится парсинг. На этом сайте есть ссылка такого типа <a href="#driver"...

Парсинг сайта
Доброго времени суток. Не получается спрасить текст с сайта. Открываем ссылку: https://lifehacker.ru/marinady-dlya-shashlyka/ ...

Парсинг сайта
Добрый день, возник вопрос, нужно спарсить с сайта цены и название товаров, при парсинге берётся только первый div, даже через перебор не...

Парсинг сайта
Здраствуйте, можете подсказать как разбить фрагмент сайта <div class=vrezka><a href="/films/s/spykids4/">Дети шпионов 4: Время во...

Парсинг сайта
Всем привет! Есть необходимость получить координаты остановки отсюда http://wikiroutes.info/stops/8365 Не понимаю как можно вытащить...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru