Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/3: Рейтинг темы: голосов - 3, средняя оценка - 4.67
2 / 2 / 0
Регистрация: 24.01.2021
Сообщений: 29

Ссылки при парсинге

11.02.2023, 09:33. Показов 777. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет, при парсинге ссылок если в ссылке присутствуют не латинские символы то ссылка выводится в виде ссылки только до того места с которого начинается не латинский шрифт ну например вот так
https://bios.ge/images/detaile... 1200_4.jpg
Ссылка получается https://bios.ge/images/detailed/22/, а всё остальное идёт в виде текста. В json такая ссылка попадает в виде:
Ссылка фото": "https://bios.ge/images/detailed/22/Untitled-1_56bc-rt.jpg
текст который не латинский заменяется на строку Untitled-1_56bc-rt
Подскажите пожалуйста как решить эту проблему?
Заранее благодарю.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
11.02.2023, 09:33
Ответы с готовыми решениями:

Как добавить ссылки страниц в парсинге?
Здравствуйте! Как добавить ссылки в парсинге? Заранее спасибо :) Вот код страницы: <div class="a-card__header-left"> ...

Ошибка при парсинге
В общем по учебе надо пропарсить tutu.ru чтобы подобрать ближайшую электричку. При парсинге столкнулся с дилеммой, из-за которой горит не...

Проблема с кодировкой при парсинге
Уважаемые программисты. Изучаю python. Есть Html: <!DOCTYPE html> <head><title>Заголовок веб-сайта</title></head> ...

6
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,694
Записей в блоге: 29
11.02.2023, 10:26
Gruzin01, мало подробностей, откуда ты берешь эту ссылку? что за жсон, в котором она "превращается"? что значит "ссылка выводится", где, как?

ТЗ от программиста: я вот с такого сайта вот таким кодом получаю вот такие данные, когда я вот так вывожу их вот там, то получаю вот это. А мне хочется вот так (пример).
0
2 / 2 / 0
Регистрация: 24.01.2021
Сообщений: 29
11.02.2023, 12:18  [ТС]
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
import requests
from bs4 import BeautifulSoup
import lxml
import json
import datetime
 
URL = "https://bios.ge/pccomponent/"
HEADERS = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/88.0',
           'accept': '*/*'}
DOMAIN = "https://bios.ge/"
 
 
def get_all_links():
    
    for page in range(1, 29):
        url = f"https://bios.ge/pccomponent/page-{page}"
        r = requests.get(url, headers=HEADERS)
        soup = BeautifulSoup(r.text, "lxml")
        data = soup.find_all("div", class_="ty-column3")
        for card_link in data:
            link = card_link.find("div", class_="ty-grid-list__image").find("a").get("href") + "?sl=ru"
            
            yield link
 
 
def cards():
    all_cards = []
    j_data = []
    for link in get_all_links():
        description = {}
        r = requests.get(link, headers=HEADERS)
        soup = BeautifulSoup(r.text, "lxml")
        data = soup.find("div", class_="ty-product-block ty-product-detail")
        name = data.find("h1", class_="ty-product-block-title").text
        code = data.find("div", class_="ty-control-group ty-sku-item cm-hidden-wrapper").find("span").text
        price = data.find("div", class_="ty-product-block__price-actual").find("span", class_="ty-price").text
        nalichie = data.find("div", class_="ty-product-block__field-group").find("span", class_="ty-qty-in-stock ty-control-group__item").text.strip()
        img_link = data.find("a", class_="cm-image-previewer cm-previewer ty-previewer").get("href")
        desc = data.find_all("div", class_="ty-product-feature")
        for dsc_item in desc:
            desc_name = dsc_item.find("div", class_="ty-product-feature__label").text
            desc_value = dsc_item.find("div", class_="ty-product-feature__value").text
            description[desc_name] = desc_value
 
            #print(desc_name, desc_value)
        print(name, code, price, nalichie, img_link)
        all_cards.append([name, code, price, nalichie, img_link])
        item = {
            "Название": name,
            "Артикул": code,
            "Цена": price,
            "Наличие": nalichie,
            "Ссылка фото": img_link,
            "Описание": description
        }
        j_data.append(item)
        filename = datetime.date.today()
        with open(f"{filename}_new.json", "w", encoding="UTF-8") as f:
            json.dump(j_data, f, ensure_ascii=False, indent=2)
    return j_data
 
 
print(cards())
0
2 / 2 / 0
Регистрация: 24.01.2021
Сообщений: 29
11.02.2023, 13:43  [ТС]
Фото из pycharm
Миниатюры
Ссылки при парсинге  
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,694
Записей в блоге: 29
11.02.2023, 14:08
Gruzin01, функции умеют слишком много, зачем используешь весь путь в get_all_links, если его надо компоновать из URL?

почему сложно дать конкретику, о которой просил в первом посте? предлагаешь мне перебрать 30 страниц и найти где кривая ссылка?
то что пичарм не может их верно парсить, не означает что они не валидные, они работают и в браузере ив реквестс, но если хочется верный вид, то сделай енкоде

Python
1
2
3
4
5
>>> import urllib
>>> urllib.parse.quote('https://bios.ge/images/thumbnails/224/256/detailed/9/ოპერატიული_მეხსიერება_Kingston_KSM32RS8L-8HDR_Memory_DDR4_3200_8GB_ECC_REG_RDIMM.jpg', safe='/:')
'https://bios.ge/images/thumbnails/224/256/detailed/9/%E1%83%9D%E1%83%9E%E1%83%94%E1%83%A0%E1%83%90%E1%83%A2%E1%83%98%E1%83%A3%E1%83%9A%E1%83%98_%E1%83%9B%E1%83%94%E1%83%AE%E1%83%A1%E1%83%98%E1%83%94%E1%83%A0%E1%83%94%E1%83%91%E1%83%90_Kingston_KSM32RS8L-8HDR_Memory_DDR4_3200_8GB_ECC_REG_RDIMM.jpg'
>>> requests.get(_)
<Response [200]>
1
2 / 2 / 0
Регистрация: 24.01.2021
Сообщений: 29
11.02.2023, 14:36  [ТС]
Спасибо большое за помощь, честно говоря думал, что я далеко не первый кто столкнулся с такой проблемой и, что спецы сразу поймут о чём речь и что ответ уже давно известен ) Я и не говорю, что ссылки не валидные, просто pychrm её воспринимает некорректно и далее при записи в json каким то образом её преобразует, правда и она (преобразованная ссылка) тоже валидна , по поводу первого поста "ТЗ от программиста:" я думал это какой то сарказм типа хочу то не знаю что, ну не понял я )))
Я не программист, во всяком случае пока, только начал учиться.
Ещё раз спасибо. Удачи.
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,694
Записей в блоге: 29
11.02.2023, 19:07
Цитата Сообщение от Gruzin01 Посмотреть сообщение
что я далеко не первый кто столкнулся
только благодаря тебе узнал, что в ссылку могут засунуть символы другого алфавита, никогда не встречал вообще, в РФ например не вставляют кириллицу в середину латиницы
Кстати, ВСкоде нормально такие ссылки показывает и кликает
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
11.02.2023, 19:07
Помогаю со студенческими работами здесь

При парсинге не находится тэг
Всем привет. Изучаю парсинг с помощью BeautifulSoup. Написал такой код: import requests from bs4 import BeautifulSoup ...

Ошибка при парсинге Json
Ошибка возникаєт в парсенге, понять что он от меня хочет не могу. Сначала я делал всё как впримере где била другая сылка. Пример: ...

Появляются лишние символы при сохранении страниц html при парсинге с Селениум
В коде такой фрагмент. С проблемой сталкивался на разных сайтах. На заднем плане скриншот из браузера. На переднем из текстового редактора...

Ошибка при парсинге
Здравствуйте. Пытаюсь написать простой парсер, но возникла непонятная ошибка Например, страница...

Проблема при парсинге
Всем привет! Помогите, пожалуйста, новичку решить проблему. Пишу парсер магазина. Скрипт постранично вытаскивает ссылки лотов и далее...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
Настройки VS Code
Loafer 13.04.2026
{ "cmake. configureOnOpen": false, "diffEditor. ignoreTrimWhitespace": true, "editor. guides. bracketPairs": "active", "extensions. ignoreRecommendations": true, . . .
Оптимизация кода на разграничение прав доступа к элементам формы
Maks 13.04.2026
Алгоритм из решения ниже реализован на нетиповом документе, разработанного в конфигурации КА2. Задачи, как таковой, поставлено не было, проделанное ниже исключительно моя инициатива. Было так:. . .
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru