Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/3: Рейтинг темы: голосов - 3, средняя оценка - 4.67
1 / 1 / 0
Регистрация: 24.01.2021
Сообщений: 21

Ссылки при парсинге

11.02.2023, 09:33. Показов 722. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет, при парсинге ссылок если в ссылке присутствуют не латинские символы то ссылка выводится в виде ссылки только до того места с которого начинается не латинский шрифт ну например вот так
https://bios.ge/images/detaile... 1200_4.jpg
Ссылка получается https://bios.ge/images/detailed/22/, а всё остальное идёт в виде текста. В json такая ссылка попадает в виде:
Ссылка фото": "https://bios.ge/images/detailed/22/Untitled-1_56bc-rt.jpg
текст который не латинский заменяется на строку Untitled-1_56bc-rt
Подскажите пожалуйста как решить эту проблему?
Заранее благодарю.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
11.02.2023, 09:33
Ответы с готовыми решениями:

Как добавить ссылки страниц в парсинге?
Здравствуйте! Как добавить ссылки в парсинге? Заранее спасибо :) Вот код страницы: <div class="a-card__header-left"> ...

Ошибка при парсинге
В общем по учебе надо пропарсить tutu.ru чтобы подобрать ближайшую электричку. При парсинге столкнулся с дилеммой, из-за которой горит не...

Проблема с кодировкой при парсинге
Уважаемые программисты. Изучаю python. Есть Html: <!DOCTYPE html> <head><title>Заголовок веб-сайта</title></head> ...

6
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
11.02.2023, 10:26
Gruzin01, мало подробностей, откуда ты берешь эту ссылку? что за жсон, в котором она "превращается"? что значит "ссылка выводится", где, как?

ТЗ от программиста: я вот с такого сайта вот таким кодом получаю вот такие данные, когда я вот так вывожу их вот там, то получаю вот это. А мне хочется вот так (пример).
0
1 / 1 / 0
Регистрация: 24.01.2021
Сообщений: 21
11.02.2023, 12:18  [ТС]
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
import requests
from bs4 import BeautifulSoup
import lxml
import json
import datetime
 
URL = "https://bios.ge/pccomponent/"
HEADERS = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/88.0',
           'accept': '*/*'}
DOMAIN = "https://bios.ge/"
 
 
def get_all_links():
    
    for page in range(1, 29):
        url = f"https://bios.ge/pccomponent/page-{page}"
        r = requests.get(url, headers=HEADERS)
        soup = BeautifulSoup(r.text, "lxml")
        data = soup.find_all("div", class_="ty-column3")
        for card_link in data:
            link = card_link.find("div", class_="ty-grid-list__image").find("a").get("href") + "?sl=ru"
            
            yield link
 
 
def cards():
    all_cards = []
    j_data = []
    for link in get_all_links():
        description = {}
        r = requests.get(link, headers=HEADERS)
        soup = BeautifulSoup(r.text, "lxml")
        data = soup.find("div", class_="ty-product-block ty-product-detail")
        name = data.find("h1", class_="ty-product-block-title").text
        code = data.find("div", class_="ty-control-group ty-sku-item cm-hidden-wrapper").find("span").text
        price = data.find("div", class_="ty-product-block__price-actual").find("span", class_="ty-price").text
        nalichie = data.find("div", class_="ty-product-block__field-group").find("span", class_="ty-qty-in-stock ty-control-group__item").text.strip()
        img_link = data.find("a", class_="cm-image-previewer cm-previewer ty-previewer").get("href")
        desc = data.find_all("div", class_="ty-product-feature")
        for dsc_item in desc:
            desc_name = dsc_item.find("div", class_="ty-product-feature__label").text
            desc_value = dsc_item.find("div", class_="ty-product-feature__value").text
            description[desc_name] = desc_value
 
            #print(desc_name, desc_value)
        print(name, code, price, nalichie, img_link)
        all_cards.append([name, code, price, nalichie, img_link])
        item = {
            "Название": name,
            "Артикул": code,
            "Цена": price,
            "Наличие": nalichie,
            "Ссылка фото": img_link,
            "Описание": description
        }
        j_data.append(item)
        filename = datetime.date.today()
        with open(f"{filename}_new.json", "w", encoding="UTF-8") as f:
            json.dump(j_data, f, ensure_ascii=False, indent=2)
    return j_data
 
 
print(cards())
0
1 / 1 / 0
Регистрация: 24.01.2021
Сообщений: 21
11.02.2023, 13:43  [ТС]
Фото из pycharm
Миниатюры
Ссылки при парсинге  
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
11.02.2023, 14:08
Gruzin01, функции умеют слишком много, зачем используешь весь путь в get_all_links, если его надо компоновать из URL?

почему сложно дать конкретику, о которой просил в первом посте? предлагаешь мне перебрать 30 страниц и найти где кривая ссылка?
то что пичарм не может их верно парсить, не означает что они не валидные, они работают и в браузере ив реквестс, но если хочется верный вид, то сделай енкоде

Python
1
2
3
4
5
>>> import urllib
>>> urllib.parse.quote('https://bios.ge/images/thumbnails/224/256/detailed/9/ოპერატიული_მეხსიერება_Kingston_KSM32RS8L-8HDR_Memory_DDR4_3200_8GB_ECC_REG_RDIMM.jpg', safe='/:')
'https://bios.ge/images/thumbnails/224/256/detailed/9/%E1%83%9D%E1%83%9E%E1%83%94%E1%83%A0%E1%83%90%E1%83%A2%E1%83%98%E1%83%A3%E1%83%9A%E1%83%98_%E1%83%9B%E1%83%94%E1%83%AE%E1%83%A1%E1%83%98%E1%83%94%E1%83%A0%E1%83%94%E1%83%91%E1%83%90_Kingston_KSM32RS8L-8HDR_Memory_DDR4_3200_8GB_ECC_REG_RDIMM.jpg'
>>> requests.get(_)
<Response [200]>
1
1 / 1 / 0
Регистрация: 24.01.2021
Сообщений: 21
11.02.2023, 14:36  [ТС]
Спасибо большое за помощь, честно говоря думал, что я далеко не первый кто столкнулся с такой проблемой и, что спецы сразу поймут о чём речь и что ответ уже давно известен ) Я и не говорю, что ссылки не валидные, просто pychrm её воспринимает некорректно и далее при записи в json каким то образом её преобразует, правда и она (преобразованная ссылка) тоже валидна , по поводу первого поста "ТЗ от программиста:" я думал это какой то сарказм типа хочу то не знаю что, ну не понял я )))
Я не программист, во всяком случае пока, только начал учиться.
Ещё раз спасибо. Удачи.
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
11.02.2023, 19:07
Цитата Сообщение от Gruzin01 Посмотреть сообщение
что я далеко не первый кто столкнулся
только благодаря тебе узнал, что в ссылку могут засунуть символы другого алфавита, никогда не встречал вообще, в РФ например не вставляют кириллицу в середину латиницы
Кстати, ВСкоде нормально такие ссылки показывает и кликает
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
11.02.2023, 19:07
Помогаю со студенческими работами здесь

При парсинге не находится тэг
Всем привет. Изучаю парсинг с помощью BeautifulSoup. Написал такой код: import requests from bs4 import BeautifulSoup ...

Ошибка при парсинге Json
Ошибка возникаєт в парсенге, понять что он от меня хочет не могу. Сначала я делал всё как впримере где била другая сылка. Пример: ...

Появляются лишние символы при сохранении страниц html при парсинге с Селениум
В коде такой фрагмент. С проблемой сталкивался на разных сайтах. На заднем плане скриншот из браузера. На переднем из текстового редактора...

Ошибка при парсинге
Здравствуйте. Пытаюсь написать простой парсер, но возникла непонятная ошибка Например, страница...

Проблема при парсинге
Всем привет! Помогите, пожалуйста, новичку решить проблему. Пишу парсер магазина. Скрипт постранично вытаскивает ссылки лотов и далее...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США. Нашел на реддите интересную статью под названием «Кто-нибудь знает, где получить бесплатный компьютер или. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru