Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/3: Рейтинг темы: голосов - 3, средняя оценка - 4.67
2 / 2 / 0
Регистрация: 24.01.2021
Сообщений: 29

Ссылки при парсинге

11.02.2023, 09:33. Показов 760. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет, при парсинге ссылок если в ссылке присутствуют не латинские символы то ссылка выводится в виде ссылки только до того места с которого начинается не латинский шрифт ну например вот так
https://bios.ge/images/detaile... 1200_4.jpg
Ссылка получается https://bios.ge/images/detailed/22/, а всё остальное идёт в виде текста. В json такая ссылка попадает в виде:
Ссылка фото": "https://bios.ge/images/detailed/22/Untitled-1_56bc-rt.jpg
текст который не латинский заменяется на строку Untitled-1_56bc-rt
Подскажите пожалуйста как решить эту проблему?
Заранее благодарю.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
11.02.2023, 09:33
Ответы с готовыми решениями:

Как добавить ссылки страниц в парсинге?
Здравствуйте! Как добавить ссылки в парсинге? Заранее спасибо :) Вот код страницы: <div class="a-card__header-left"> ...

Ошибка при парсинге
В общем по учебе надо пропарсить tutu.ru чтобы подобрать ближайшую электричку. При парсинге столкнулся с дилеммой, из-за которой горит не...

Проблема с кодировкой при парсинге
Уважаемые программисты. Изучаю python. Есть Html: <!DOCTYPE html> <head><title>Заголовок веб-сайта</title></head> ...

6
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7391 / 4818 / 1246
Регистрация: 30.03.2015
Сообщений: 13,687
Записей в блоге: 29
11.02.2023, 10:26
Gruzin01, мало подробностей, откуда ты берешь эту ссылку? что за жсон, в котором она "превращается"? что значит "ссылка выводится", где, как?

ТЗ от программиста: я вот с такого сайта вот таким кодом получаю вот такие данные, когда я вот так вывожу их вот там, то получаю вот это. А мне хочется вот так (пример).
0
2 / 2 / 0
Регистрация: 24.01.2021
Сообщений: 29
11.02.2023, 12:18  [ТС]
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
import requests
from bs4 import BeautifulSoup
import lxml
import json
import datetime
 
URL = "https://bios.ge/pccomponent/"
HEADERS = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/88.0',
           'accept': '*/*'}
DOMAIN = "https://bios.ge/"
 
 
def get_all_links():
    
    for page in range(1, 29):
        url = f"https://bios.ge/pccomponent/page-{page}"
        r = requests.get(url, headers=HEADERS)
        soup = BeautifulSoup(r.text, "lxml")
        data = soup.find_all("div", class_="ty-column3")
        for card_link in data:
            link = card_link.find("div", class_="ty-grid-list__image").find("a").get("href") + "?sl=ru"
            
            yield link
 
 
def cards():
    all_cards = []
    j_data = []
    for link in get_all_links():
        description = {}
        r = requests.get(link, headers=HEADERS)
        soup = BeautifulSoup(r.text, "lxml")
        data = soup.find("div", class_="ty-product-block ty-product-detail")
        name = data.find("h1", class_="ty-product-block-title").text
        code = data.find("div", class_="ty-control-group ty-sku-item cm-hidden-wrapper").find("span").text
        price = data.find("div", class_="ty-product-block__price-actual").find("span", class_="ty-price").text
        nalichie = data.find("div", class_="ty-product-block__field-group").find("span", class_="ty-qty-in-stock ty-control-group__item").text.strip()
        img_link = data.find("a", class_="cm-image-previewer cm-previewer ty-previewer").get("href")
        desc = data.find_all("div", class_="ty-product-feature")
        for dsc_item in desc:
            desc_name = dsc_item.find("div", class_="ty-product-feature__label").text
            desc_value = dsc_item.find("div", class_="ty-product-feature__value").text
            description[desc_name] = desc_value
 
            #print(desc_name, desc_value)
        print(name, code, price, nalichie, img_link)
        all_cards.append([name, code, price, nalichie, img_link])
        item = {
            "Название": name,
            "Артикул": code,
            "Цена": price,
            "Наличие": nalichie,
            "Ссылка фото": img_link,
            "Описание": description
        }
        j_data.append(item)
        filename = datetime.date.today()
        with open(f"{filename}_new.json", "w", encoding="UTF-8") as f:
            json.dump(j_data, f, ensure_ascii=False, indent=2)
    return j_data
 
 
print(cards())
0
2 / 2 / 0
Регистрация: 24.01.2021
Сообщений: 29
11.02.2023, 13:43  [ТС]
Фото из pycharm
Миниатюры
Ссылки при парсинге  
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7391 / 4818 / 1246
Регистрация: 30.03.2015
Сообщений: 13,687
Записей в блоге: 29
11.02.2023, 14:08
Gruzin01, функции умеют слишком много, зачем используешь весь путь в get_all_links, если его надо компоновать из URL?

почему сложно дать конкретику, о которой просил в первом посте? предлагаешь мне перебрать 30 страниц и найти где кривая ссылка?
то что пичарм не может их верно парсить, не означает что они не валидные, они работают и в браузере ив реквестс, но если хочется верный вид, то сделай енкоде

Python
1
2
3
4
5
>>> import urllib
>>> urllib.parse.quote('https://bios.ge/images/thumbnails/224/256/detailed/9/ოპერატიული_მეხსიერება_Kingston_KSM32RS8L-8HDR_Memory_DDR4_3200_8GB_ECC_REG_RDIMM.jpg', safe='/:')
'https://bios.ge/images/thumbnails/224/256/detailed/9/%E1%83%9D%E1%83%9E%E1%83%94%E1%83%A0%E1%83%90%E1%83%A2%E1%83%98%E1%83%A3%E1%83%9A%E1%83%98_%E1%83%9B%E1%83%94%E1%83%AE%E1%83%A1%E1%83%98%E1%83%94%E1%83%A0%E1%83%94%E1%83%91%E1%83%90_Kingston_KSM32RS8L-8HDR_Memory_DDR4_3200_8GB_ECC_REG_RDIMM.jpg'
>>> requests.get(_)
<Response [200]>
1
2 / 2 / 0
Регистрация: 24.01.2021
Сообщений: 29
11.02.2023, 14:36  [ТС]
Спасибо большое за помощь, честно говоря думал, что я далеко не первый кто столкнулся с такой проблемой и, что спецы сразу поймут о чём речь и что ответ уже давно известен ) Я и не говорю, что ссылки не валидные, просто pychrm её воспринимает некорректно и далее при записи в json каким то образом её преобразует, правда и она (преобразованная ссылка) тоже валидна , по поводу первого поста "ТЗ от программиста:" я думал это какой то сарказм типа хочу то не знаю что, ну не понял я )))
Я не программист, во всяком случае пока, только начал учиться.
Ещё раз спасибо. Удачи.
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7391 / 4818 / 1246
Регистрация: 30.03.2015
Сообщений: 13,687
Записей в блоге: 29
11.02.2023, 19:07
Цитата Сообщение от Gruzin01 Посмотреть сообщение
что я далеко не первый кто столкнулся
только благодаря тебе узнал, что в ссылку могут засунуть символы другого алфавита, никогда не встречал вообще, в РФ например не вставляют кириллицу в середину латиницы
Кстати, ВСкоде нормально такие ссылки показывает и кликает
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
11.02.2023, 19:07
Помогаю со студенческими работами здесь

При парсинге не находится тэг
Всем привет. Изучаю парсинг с помощью BeautifulSoup. Написал такой код: import requests from bs4 import BeautifulSoup ...

Ошибка при парсинге Json
Ошибка возникаєт в парсенге, понять что он от меня хочет не могу. Сначала я делал всё как впримере где била другая сылка. Пример: ...

Появляются лишние символы при сохранении страниц html при парсинге с Селениум
В коде такой фрагмент. С проблемой сталкивался на разных сайтах. На заднем плане скриншот из браузера. На переднем из текстового редактора...

Ошибка при парсинге
Здравствуйте. Пытаюсь написать простой парсер, но возникла непонятная ошибка Например, страница...

Проблема при парсинге
Всем привет! Помогите, пожалуйста, новичку решить проблему. Пишу парсер магазина. Скрипт постранично вытаскивает ссылки лотов и далее...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
Символьное дифференцирование
igorrr37 13.02.2026
/ * Программа принимает математическое выражение в виде строки и выдаёт его производную в виде строки и вычисляет значение производной при заданном х Логарифм записывается как: (x-2)log(x^2+2) -. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru