Поиск нужных мне данных в html коде

@serauto79 · Регистрация: 02.04.2015

Студворк — интернет-сервис помощи студентам

Добрый вечер!

скрипт питона получает такой хтмл код, мне из него нужно достать ссылку
yasaka.nyc

HTML5
1
<a href="/biz_redir?url=https%3A%2F%2Fwww.yasaka.nyc&amp;cachebuster=1738421251&amp;website_link_type=website&amp;src_bizid=HZWHBfeuP4Fb6y8b8uqnbA&amp;db974e1536d75c60ad38b6ece8691582" class="y-css-14ckas3" target="_blank" rel="noopener">yasaka.nyc</a>

как мне править регулярку в скрипте, ищу по названию класса y-css-14ckas3
но не получается вытащить ссылку , что не так с регулякрой поиска?

Python
1
2
3
4
try:
    l["site"]=soup.find("a",{"class":"y-css-14ckas3"}).text
except:
    l["site"]=None

То же самое и с номером телефона ищу по классу y-css-19xonnr не получается достать данные

HTML5
1
<p class=" y-css-19xonnr" data-font-weight="semibold">(212) 496-8460</p>

Python
1
2
3
4
try:
    l["phone"]=soup.find("p",{"class":" y-css-19xonnr"}).text
except:
    l["phone"]=None

результат выполнения скрипта

Code
1
 'phone': None, 'site': 'None'

а должно быть

Code
1
 'phone': (212) 496-8460, 'site': 'yasaka.nyc'

YuS_2 · 01.02.2025, 20:07

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
texthtml = """<a href="/biz_redir?url=https%3A%2F%2Fwww.yasaka.nyc&amp;cachebuster=1738421251&amp;
website_link_type=website&amp;src_bizid=HZWHBfeuP4Fb6y8b8uqnbA&amp;db974e1536d75c60ad38b6ece8691582"
 class="y-css-14ckas3" target="_blank" rel="noopener">yasaka.nyc</a>
<a href="/biz_redir?url=https%3A%2F%2Fwww.yasaka.nyc&amp;cachebuster=1738421251&amp;
website_link_type=website&amp;src_bizid=HZWHBfeuP4Fb6y8b8uqnbA&amp;db974e1536d75c60ad38b6ece8691582"
 class="y-css-14ckas3" target="_blank" rel="noopener">nyc.yasaka</a>
<p class=" y-css-19xonnr" data-font-weight="semibold">(212) 496-8460</p>
<p class=" y-css-19xonnr" data-font-weight="semibold">(213) 497-8550</p>"""
soup = BeautifulSoup(texthtml, "html.parser")
 
arrhref = soup.find_all('a',class_="y-css-14ckas3")
arrphone = soup.find_all('p',class_="y-css-19xonnr")
 
for i in arrhref:
    print(i.get_text())
 
for j in arrphone:
    print(j.get_text())

@serauto79 · 01.02.2025, 21:05 **[ТС]**

Сообщение от YuS_2

Python
1
2
3
4
5
6
arrhref = soup.find_all('a',class_="y-css-14ckas3")
arrphone = soup.find_all('p',class_="y-css-19xonnr")
for i in arrhref:
    print(i.get_text())
for j in arrphone:
    print(j.get_text())

Спасибо, но мне нужно чтобы в моей конструкции работало

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
from bs4 import BeautifulSoup
import requests
 
 
l={}
u=[]
 
 
 
r = requests.get("https://api.scrapingdog.com/scrape", params={
  'api_key': '679e2d3ead5675dfgd4yggg',
  'url': 'https://www.siteparsing.com/biz/sushi-yasaka',
  'dynamic': 'false',
  }).text
 
 
# print(r)
 
 
 
soup = BeautifulSoup(r,'html.parser')
 
try:
    l["name"]=soup.find("h1",{"class":"y-css-olzveb"}).text
except:
    l["name"]=None
try:
    l["address"]=soup.find("p",{"class":"y-css-jbomhy"}).text
except:
    l["address"]=None
try:
    l["stars"]=soup.find("span",{"class":"y-css-1jz061g"}).text
except:
    l["stars"]=None
    
try:
    l["phone"]=soup.find("p",{"class":"y-css-19xonnr"}).text
except:
    l["phone"]=None
 
try:
    l["site"]=soup.find("a",{"class":"y-css-14ckas3"}).text
except:
    l["site"]=None
 
u.append(l)
l={}
print({"data":u})

Добавлено через 1 минуту
первые три регулярки отрабатывают отлично

вот эти

Python
1
2
3
4
5
6
7
8
9
10
11
12
try:
    l["name"]=soup.find("h1",{"class":"y-css-olzveb"}).text
except:
    l["name"]=None
try:
    l["address"]=soup.find("p",{"class":"y-css-jbomhy"}).text
except:
    l["address"]=None
try:
    l["stars"]=soup.find("span",{"class":"y-css-1jz061g"}).text
except:
    l["stars"]=None

с двумя последними непонятка

@serauto79 · 02.02.2025, 12:46 **[ТС]**

ну как исправить мне правила поиска в моем примере?

YuS_2 · 02.02.2025, 13:01

Сообщение от serauto79

ну как исправить мне правила поиска в моем примере?

1. Чтобы что-то исправить, необходимо это что-то увидеть. Исходной html-страницы, которую необходимо распарсить, тут нет.
2. Ссылка на сайт из Вашего кода - не работает.
3. Правильный разбор всех элементов, которые могут присутствовать в html-коде, показан выше.

Добавлено через 1 минуту

Сообщение от serauto79

регулярки

Это не регулярки. Регулярные выражения - это совсем о другом.

@serauto79 · 02.02.2025, 14:45 **[ТС]**

Сообщение от YuS_2

Это не регулярки. Регулярные выражения - это совсем о другом.

тогда как правильно сделать регулярку для моего кода в примере

чтобы регуляркой дергнуть текст yasaka.nyc которые будет находится между тегами

HTML5
1
class="y-css-14ckas3" target="_blank" rel="noopener">yasaka.nyc</a>

Добавлено через 7 минут
Полный хтмл код ссылки на странице с которой парсю данные

HTML5
1
<a href="/biz_redir?url=https%3A%2F%2Fwww.yasaka.nyc&amp;cachebuster=1738495728&amp;website_link_type=website&amp;src_bizid=HZWHBfeuP4Fb6y8b8uqnbA&amp;c7e15bd7b171172aa8900c7c1933255a" class="y-css-14ckas3" target="_blank" rel="noopener">yasaka.nyc</a>

если искать по классу class="y-css-14ckas3" то их 13 штук на странице

а вот именно такой код если вбить в поиске, то он один именно в таком виде
class="y-css-14ckas3" target="_blank" rel="noopener">yasaka.nyc</a>

нужно правильно написать регулярку, не знаю как на питоне

Добавлено через 2 минуты
имею ввиду если искать даже по начальному тегу ... открывающему то он один такой в коде странице в таком виде
class="y-css-14ckas3" target="_blank" rel="noopener">

а закрывающий тег </a>

все что между этими двумя тегами нужно спарсить

YuS_2 · 02.02.2025, 15:08

Сообщение от serauto79

тогда как правильно сделать регулярку для моего кода в примере

В данном случае, регулярки не нужны.

Сообщение от serauto79

Полный хтмл код ссылки на странице с которой парсю данные

Это всего лишь, один элемент из кода. А я говорил о всей странице.

Сообщение от serauto79

если искать по классу class="y-css-14ckas3" то их 13 штук на странице

Элементов с однотипными тегами? Покажите всю страницу. Если данные там конфиденциальные, можете в личку скинуть - гарантирую нераспространение. Либо сами конфиденциальные данные замените каким-либо текстом и выложите код сюда.

Сообщение от serauto79

а вот именно такой код если вбить в поиске, то он один именно в таком виде

Ничего не понял. Так один или тринадцать элементов? Или тег <a> с классом "y-css-14ckas3" один? Если нужный элемент один, то выше я давал код, которым можно спарсить необходимые данные:

Python
1
2
3
4
5
6
7
l={}
arrhref = soup.find_all('a',class_="y-css-14ckas3")
for i in arrhref:
    if i.get_text():
        l['name'] = i.get_text()
    else:
        l['name'] = None

- но это, при условии, что элемент один... если их несколько, то в словарь будет записан только последний.
Чтобы написать правильно парсер, необходимо видеть весь код страницы и иметь представление о задаче в целом, т.е. что в итоге требуется получить.

@serauto79 · 02.02.2025, 21:23 **[ТС]**

Сообщение от YuS_2

- но это, при условии, что элемент один... если их несколько, то в словарь будет записан только последний.
Чтобы написать правильно парсер, необходимо видеть весь код страницы и иметь представление о задаче в целом, т.е. что в итоге требуется получить

есть в коде такая строка и она одна во всем коде страницы

HTML5
1
<a href="/biz_redir?url=https%3A%2F%2Fwww.yasaka.nyc&amp;cachebuster=1738495728&amp;website_link_type=website&amp;src_bizid=HZWHBfeuP4Fb6y8b8uqnbA&amp;c7e15bd7b171172aa8900c7c1933255a" class="y-css-14ckas3" target="_blank" rel="noopener">yasaka.nyc</a>

но есть и другие строки с таким же класом
class="y-css-14ckas3"

но именно такой кусок кода только у этой ссылки что нужно спарсить

class="y-css-14ckas3" target="_blank" rel="noopener">

как сделать поиск именно по этому куску кода, он будет означать начало поиска парсера, а конец поиска закрывающий тег а
class="y-css-14ckas3" target="_blank" rel="noopener">

такое правило возможно на питоне сделать, на пхп можно такое сделать, а как тут?

Добавлено через 5 минут
хотите на весь код страницы глянуть вот

HTML5
1
view-source:https://www.yelp.com/biz/sushi-yasaka-new-york

Добавлено через 1 минуту
можете в поиске исходного кода найти
class="y-css-14ckas3" target="_blank" rel="noopener">

и там будет только одно такое совпадение

YuS_2 · 03.02.2025, 09:10

Сообщение от serauto79

такое правило возможно на питоне сделать, на пхп можно такое сделать, а как тут?

Да, можно и регулярками... но регулярки не лучший инструмент для парсера html, его можно использовать если уж слишком запутанная dom структура.
В общем:

Сообщение от serauto79

хотите на весь код страницы глянуть вот

Ну, вот, другое дело...
Там много однотипных элементов с одинаковыми классами... как вариант, выделять необходимые блоки и уже внутри искать то, что требуется. Например:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import requests
from bs4 import BeautifulSoup
 
url = "https://www.yelp.com/biz/sushi-yasaka-new-york"
headers = {
    "Accept":"*/*",
    "User-Agent": "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36"
}
texthtml = requests.get(url, headers=headers, timeout=3).text
soup = BeautifulSoup(texthtml, "lxml")
 
sect = soup.find_all('section', class_='y-css-1790tv2')
 
for x in sect:
    p = x.find_all('p', class_="y-css-19xonnr") 
 
site = p[0].find('a',attrs={'rel':'noopener'}).text
phone = p[1].text
 
print(f"site = '{site}'\nphone = '{phone}'")

Добавлено через 46 секунд
Как поместить полученные данные в словарь, Вы ведь знаете?

@serauto79 · 03.02.2025, 12:14 **[ТС]**

Сообщение от YuS_2

Ну, вот, другое дело...

ошибка выполнения вашего примера
NameError: name 'p' is not defined

я вас несколько раз просил показать изменения в моем примере что я дал, мне нужен именно мой код, та все работает кроме вывода
сайта и телефона

Добавлено через 3 минуты
мне нужна правка именно в моем примере в этих строках

Python
1
2
3
4
5
6
7
8
9
try:
    l["phone"]=soup.find("p",{"class":"y-css-19xonnr"}).text
except:
    l["phone"]=None
 
try:
    l["site"]=soup.find("a",{"class":"y-css-14ckas3"}).text
except:
    l["site"]=None

если невозможно сделать то так и скажите, то хреновый питон тогда, в пхп можно именно искать нужный код и выгребать данные которые там будут, у пхп только одна проблема время выполнения скрипта

YuS_2 · 03.02.2025, 12:44

Сообщение от serauto79

ошибка выполнения вашего примера

а Вы проверьте, что в статусе запроса:

Python
1
print(texthtml.status_code)

этот yelp имеет свойство банить по IP за частые запросы.
Скачайте страницу на комп и тестируйте локально...

Python
1
2
with open("yasaka.html") as fp:
    soup = BeautifulSoup(fp, "lxml")

Сообщение от serauto79

я вас несколько раз просил показать изменения в моем примере что я дал

Ваш пример нерабочий и если есть желание - корректируйте его самостоятельно.

Сообщение от serauto79

если невозможно сделать то так и скажите

Сделать можно многое, при достаточном терпении и желании, при этом изучить вопрос и применить полученные знания...
Методом "научного тыка" - тоже можно, но менее эффективно

Сообщение от serauto79

то хреновый питон тогда, в пхп можно именно искать нужный код и выгребать данные которые там будут

К Вам кто-то пришел домой и под дулом пистолета заставляет делать всё на питоне?

Добавлено через 8 минут
Только вот здесь, код надо поправить, чтобы смотреть код ответа от сервера:

Python
1
2
texthtml = requests.get(url, headers=headers, timeout=3)
soup = BeautifulSoup(texthtml.text, "lxml")

Добавлено через 3 минуты
Вот полный код, с проверкой ответа от сервера:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
from time import sleep 
import requests
from bs4 import BeautifulSoup
 
url = "https://www.yelp.com/biz/sushi-yasaka-new-york"
headers = {
    "Accept":"*/*",
    "User-Agent": "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36"
}
texthtml = requests.get(url, headers=headers, timeout=3)
cnt = 0
while texthtml.status_code != 200 and cnt < 10:
    texthtml = requests.get(url, headers=headers, timeout=3)
    cnt += 1
    sleep(2)
 
print(f'code={texthtml.status_code}, cnt={cnt}')
 
soup = BeautifulSoup(texthtml.text, "lxml")
 
sect = soup.find_all('section', class_='y-css-1790tv2')
 
for x in sect:
    p = x.find_all('p', class_="y-css-19xonnr") 
 
site = p[0].find('a',attrs={'rel':'noopener'}).text
phone = p[1].text
print(f"site = '{site}'\nphone = '{phone}'")

@serauto79 · 03.02.2025, 13:42 **[ТС]**

Сообщение от YuS_2

Ваш пример нерабочий и если есть желание - корректируйте его самостоятельно.

рабочий и я получаю первые три параметра, а сайт и телефон не получается получить...
если не можете или не получается в моем примере сделать правку то зачем тогда кидаете свой пример который не работает... непонятно...

мой пример работает, только там я получаю запрос через апи, потому что напрямую к сайту который парсю не обратишся он банит уже на втором запросе и список прокси тоже не особо помогает, не знаю как вы там смогли подключится и парсануть его напрямую, передача headers ему до лампочки, сайс не пальцем делан и парсить его очень сложно и дорого

Добавлено через 14 минут
увидел в этот раз работает, у меня не получалось более одного раза вызывать сайт донор ранее потом банил меня

Добавлено через 11 минут
дополнил ваш код
вроде работает, я ранее тоже добавлял в запрос requests.get headers=headers
но первый раз подгружало данные вторай раз уже банит сайт и все, пришлось через апи работать

Python
1
2
3
4
5
6
7
8
9
10
11
12
for x in sect:
    p = x.find_all('p', class_="y-css-19xonnr") 
 
site = p[0].find('a',attrs={'rel':'noopener'}).text
phone = p[1].text
 
for v in sect:
    a = v.find_all('p', class_="y-css-jbomhy") 
adress = a[0].text
 
 
print(f"site = '{site}'\nphone = '{phone}'\nadress = '{adress}'")

YuS_2 · 03.02.2025, 14:51

Сообщение от serauto79

если не можете или не получается в моем примере сделать правку то зачем тогда кидаете свой пример который не работает... непонятно...

Теперь понятно?

Сообщение от serauto79

не знаю как вы там смогли подключится и парсануть его напрямую

слишком частые однотипные запросы приводят к бану. Пару раз получил бан... далее уже:

Сообщение от YuS_2

Скачайте страницу на комп и тестируйте локально...

Никто не мешает же так поступить...

Браузеры умеют сохранять страницы, как .html

Сообщение от serauto79

for v in sect:
a = v.find_all('p', class_="y-css-jbomhy")

это можно сделать в первом же цикле, второй не нужен...

Python
1
2
3
4
5
6
7
for x in sect:
    p = x.find_all('p', class_="y-css-19xonnr")
    a = x.find_all('p', class_="y-css-jbomhy")
 
site = p[0].find('a',attrs={'rel':'noopener'}).text
phone = p[1].text
address = a[0].text

или так:

Python
1
2
3
4
5
6
7
8
for x in sect:
    p = x.find_all('p', class_=['y-css-19xonnr','y-css-jbomhy'])
 
site = p[0].find('a',attrs={'rel':'noopener'}).text
phone = p[1].text
address = p[3].text
 
print(f"site = '{site}'\nphone = '{phone}'\naddress = '{address}'")

@kazak · 03.02.2025, 19:18

Сообщение от YuS_2

этот yelp имеет свойство банить по IP за частые запросы.
Скачайте страницу на комп и тестируйте локально...

Для отладки есть более удобный инструмент https://vcrpy.readthedocs.io/en/latest/usage.html

YuS_2 · 03.02.2025, 19:46

Сообщение от kazak

есть более удобный инструмент

Ну, сложно сказать, что-то про удобство... но зачем лишняя сущность? Можно ведь проще поступить, полученное содержимое переменной сохранить в файл и для этого не нужны никакие дополнительные видеомагнитофоны

@kazak · 03.02.2025, 21:29

Сообщение от YuS_2

Можно ведь проще поступить, полученное содержимое переменной сохранить в файл и для этого не нужны никакие дополнительные видеомагнитофоны

"Дополнительный видеомагнитофон" автоматизирует весь описаный Вами процесс

YuS_2 · 04.02.2025, 02:34

Сообщение от kazak

автоматизирует весь описаный Вами процесс

Сам напишет код, сам назовет переменные, запросы, выберет сайты... в общем, подготовит полностью веб-краулеры?

Понятно ведь, что это то же самое, только вид сбоку... так что "автоматизирует" - это малопривлекательное, в данном случае, преимущество.
Практический бы пример для сравнения, какое именно удобство дает этот видеомагнитофон на 4 режима записи, ну кроме того, что в коде будет чуть меньше символов.

чтение-запись, одновременно:

Python
1
2
3
4
with open('file.html', 'w+') as fw:
    fw.write(var)
    fw.seek(0)
    var = fw.read()

чтение:

Python
1
2
with open('file.html', 'r') as fr:
    var = fr.read()

ну и для автоматизации, вплоть до визуального выбора имени файла и операции(чтение или запись), по сути, пару строк дописать, при необходимости... отличие в чем?

видимо, просто удобство для меньшего числа нажатий кнопок, при составлении кода записи в файл... типа, для совсем ленивых...

имхо

@kazak · 07.02.2025, 22:20

Формально это инструмент тестировщиков, но и для целей отладки отлично подходит, представляет из себя HTTP-stub. Принцип работы таков, VCR перехватывает все HTTP-запросы, вополняемые под ним. Новые запросы пробрасывает целевому адресату и скурпулезно записывает в специальный файл ("кассету") запрос/ответ (url, параметры, хидеры, тело). Если запрос с такими же параметрами уже записан в кассету, заворачивает запрос обратно, возвращая содержимое записаное на кассете - имитируя удаленный сервис.

Сообщение от YuS_2

Практический бы пример для сравнения, какое именно удобство дает этот видеомагнитофон на 4 режима записи, ну кроме того, что в коде будет чуть меньше символов

Ну как чуть меньше... не берите частный пример ТС'а - маленький скриптик на один запрос, а если нужно будет 5, 10, 20 и более запросов сделать, под каждый будете создавать отдельный файл?

@serauto79 · 08.02.2025, 13:01 **[ТС]**

на странице есть код

HTML5
1
<div class="dishPhoto__09f24__Gb3Mw y-css-mhg9c5"><img class=" dishImageV2__09f24__VT6Je" src="https://s3-media0.fl.yelcdn.com/bphoto/nrZb52SubAmeXQYlwwbB9A/258s.jpg" alt="Sushi Deluxe #122"><span class="price__09f24__F1T0p y-css-10rylqc" data-font-weight="bold">$26.50</span></div>

написал код

Python
1
2
3
4
5
6
sect2 = soup.find_all('section', class_='dishPhoto__09f24__Gb3Mw y-css-mhg9c5')
for b in sect2:
    n = b.find('src', class_="dishImageV2__09f24__VT6Je") 
 
image = n[0].text
print(image)

но ссылку на карринку не выдергует из хтмл

Новые блоги и статьи Все статьи Все блоги /
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce volvo 10.02.2026 В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .	SDL3 для Web (WebAssembly): Работа со звуком через SDL3_mixer 8Observer8 08.02.2026 Содержание блога Пошагово создадим проект для загрузки звукового файла и воспроизведения звука с помощью библиотеки SDL3_mixer. Звук будет воспроизводиться по клику мышки по холсту на Desktop и по. . .	SDL3 для Web (WebAssembly): Основы отладки веб-приложений на SDL3 по USB и Wi-Fi, запущенных в браузере мобильных устройств 8Observer8 07.02.2026 Содержание блога Браузер Chrome имеет средства для отладки мобильных веб-приложений по USB. В этой пошаговой инструкции ограничимся работой с консолью. Вывод в консоль - это часть процесса. . .	SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве 8Observer8 02.02.2026 Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии iceja 01.02.2026 На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .	SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf 8Observer8 01.02.2026 Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .	SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли 8Observer8 30.01.2026 Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .	SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm 8Observer8 30.01.2026 Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .

@serauto79 21 / 10 / 4 Регистрация: 02.04.2015 Сообщений: 779
	02.02.2025, 12:46 [ТС]
	ну как исправить мне правила поиска в моем примере? 0