Проблемный парсер сайта

@kill_s · Регистрация: 27.02.2011

Студворк — интернет-сервис помощи студентам

Пмогите плизз, давно уже ломаю голову, хотел написать парсер сайта, чтобы выводил все, что находится между тэгами <table></table>я так понимаю необходимо использовать регулярные выражения, но у меня не получается...помогите.....ниже приведена самая функция, по которой происходит извлечение данных

Python
1
2
3
4
 f = urllib.request.urlopen("http://zd1.alt.mirsudrf.ru/modules.php?name=info_pages&rid=11").read()
    #print(f.info())
    r1=re.compile((r'<table>(.*?)</table>',  re.DOTALL).findall(f))
    print(f)

выдается ошибка
AttributeError: 'tuple' object has no attribute 'findall'
как быть и что делать????

@soft.creator · 22.08.2011, 14:08

Все же правильно так:

Python
1
r1=re.compile(r'<table>(.*?)</table>', re.DOTALL).findall(f)

@pyuser · 22.08.2011, 17:04

А в чем смысл использования функции compile? почему не

Python
1
r1=re.findall(r'<table>(.*?)</table>',f, re.DOTALL)

@Nameless One · 22.08.2011, 18:42

Сообщение от pyuser

А в чем смысл использования функции compile

В данном случае - никакого смысла нет

@pyuser · 22.08.2011, 18:48

Сообщение от Nameless One

В данном случае - никакого смысла нет

Или все же какой-то тайный смысл есть?

@soft.creator · 22.08.2011, 19:21

Смысл есть, если это же выражение потом используется повторно.
Я лишь хотел показать, что там скобки лишние

@Nameless One · 22.08.2011, 19:25

Сообщение от kill_s

я так понимаю необходимо использовать регулярные выражения

Можно пользовать lxml (и не изобретать велосипеды):

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
>>> html = '''<html><head><title>Test page</title></head><body><b>text1</b><b>text2</b></body></html>'''
>>> import lxml.html
>>> import lxml.etree
>>> doc = lxml.html.document_fromstring(html)
>>> print(lxml.etree.tostring(doc, pretty_print=True).decode('utf-8'))
<html>
  <head>
    <title>Test page</title>
  </head>
  <body>
    <b>text1</b>
    <b>text2</b>
  </body>
</html>
 
>>> for bold_tag in doc.getiterator(tag='b'):
...     if bold_tag.text:
...             print(bold_tag.text)
... 
text1
text2
>>>

@Nameless One · 22.08.2011, 19:28

Сообщение от pyuser

Или все же какой-то тайный смысл есть?

Тайный смысл есть, если один шаблон регулярного выражения должен использоваться несколько раз. Тогда его можно скомпилировать один раз, и использовать уже скомпилированный шаблон вместо того, чтобы компилировать его каждый раз.

@kill_s · 23.08.2011, 08:42 **[ТС]**

Python
1
2
f = urllib.request.urlopen("url").read()
     r1=re.compile(r'<table>(.*?)</table>',re.DOTALL).findall(f)

теперь выдается вот такая вот ошибка :
TypeError: can't use a string pattern on a bytes-like object

accept · 23.08.2011, 11:10

Python
1
2
f = urllib.request.urlopen(url)
pagestr = f.read().decode('utf-8')

@kill_s · 23.08.2011, 13:32 **[ТС]**

и все таки, подскажите как сделать, чтобы отобразилось, все что находится между двумя тэгами <body></body> используя библиотеку urllib и рег выражения?.....

Python
1
2
3
4
 f = urllib.request.urlopen("url")
    pagestr=f.read().decode('cp1251')
    r1=re.compile(r'<tbody>(.*?)</tbody>',re.DOTALL).findall(pagestr)
    print(r1)

на этот код, он выдает только []....что я делаю не так?подскажите,помогите люди добрые...

accept · 24.08.2011, 02:12

следи за отступами, так как они определяют блоки (как { } в C)
для работы с тегами html используй html

Python
1
2
3
4
5
6
7
8
9
import urllib.request
import re
 
url = 'http://www.yandex.ru'
tag = 'table'
f = urllib.request.urlopen(url)
pagestr = f.read().decode('utf-8')
tagstr = re.findall('<' + tag + '>?.*</' + tag + '>', pagestr)
print(tagstr)

@bestol · 24.08.2011, 18:18

Сообщение от accept

Python
1
tagstr = re.findall('<' + tag + '>?.*</' + tag + '>', pagestr)

А что обозначает

Code
1
>?.*

Тут получается, что символ > опционален, а дальше будет захвачено все до последенго тега </tag>, т.к. нет вопроса после .*, который делает данный паттерн нежадным.

accept · 25.08.2011, 02:29

Сообщение от bestol

Тут получается, что символ > опционален

тег может содержать атрибуты

Сообщение от bestol

а дальше будет захвачено все до последенго тега </tag>

там берётся первая таблица, в которой есть вложенные таблицы

@bestol · 25.08.2011, 02:44

accept, а если таблицы будут не вложенные, а будут идти перемешанными с текстом? Ведь тогда и все эти таблицы и текст между ними захватятся.

Я бы сделал как-нибудь так:

Code
1
('< *' + tag + '[^/>]*>(.*?)</ *' + tag + ' *>', pagestr)

accept · 25.08.2011, 02:50

Сообщение от bestol

accept, а если таблицы будут не вложенные, а будут идти перемешанными с текстом? Ведь тогда и все эти таблицы и текст между ними захватятся.

ты как не напиши, тут всегда будет неправильно
если напишешь для невложенных, будет неправильно для вложенных
если напишешь для вложенных, будет неправильно для невложенных

Сообщение от bestol

Я бы сделал как-нибудь так:

там какие-то пробелы рассматриваются (а там только пробелы могут быть ?)
нужно через html делать

@bestol · 25.08.2011, 03:05

Сообщение от accept

нужно через html делать

Да!
на stackoverflow обсуждалось, что regexp-ы совершенно не предназначены дла распарсивания таких вот вложенных структур (в данном случае <table> в <table>)

accept · 25.08.2011, 03:05

Сообщение от accept

там берётся первая таблица, в которой есть вложенные таблицы

там берётся первая единственная таблица, в которую вложены таблицы

accept · 25.08.2011, 03:07

Сообщение от bestol

на stackoverflow обсуждалось, что regexp-ы совершенно не предназначены дла распарсивания таких вот вложенных структур

одни regexp'ы не подойдут, надо делать рекурсивный анализатор

@bestol · 25.08.2011, 03:08

Сообщение от accept

а там только пробелы могут быть ?

Qt почему-то пробелы добавляет в некоторые тэги. Во всяком случае мне приходилось пробелы обрабатывать.

Новые блоги и статьи Все статьи Все блоги /
Кому нужен AOT? DevAlt 26.03.2026 Решил сделать простой ланчер Написал заготовку: dotnet new console --aot -o UrlHandler var items = args. Split(":"); var tag = items; var id = items; var executable = args;. . .	Отправка уведомления на почту при изменении наименования справочника Maks 24.03.2026 Программная отправка письма электронной почты на примере изменения наименования типового справочника "Склады" в конфигурации БП3. Перед реализацией необходимо выполнить настройку системной учетной. . .	модель ЗдравоСохранения 5. Меньше увольнений- больше дохода! anaschu 24.03.2026 Теперь система здравосохранения уменьшает количество увольнений. 9TO2GP2bpX4 a42b81fb172ffc12ca589c7898261ccb/ https:/ / rutube. ru/ video/ a42b81fb172ffc12ca589c7898261ccb/ Слева синяя линия -. . .	Midnight Chicago Blues kumehtar 24.03.2026 Такой Midnight Chicago Blues, знаешь?. . Когда вечерние улицы становятся ночными, а ты не можешь уснуть. Ты идёшь в любимый старый бар, и бармен наливает тебе виски. Ты смотришь на пролетающие. . .
SDL3 для Desktop (MinGW): Вывод текста со шрифтом TTF с помощью библиотеки SDL3_ttf на Си и C++ 8Observer8 24.03.2026 Содержание блога Финальные проекты на Си и на C++: finish-text-sdl3-c. zip finish-text-sdl3-cpp. zip	Жизнь в неопределённости kumehtar 23.03.2026 Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .	Модель здравоСохранения: работники работают быстрее после её введения. anaschu 23.03.2026 geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .	Контроль уникальности заводского номера Maks 23.03.2026 Алгоритм контроля уникальности заводского (или серийного) номера на примере нетипового документа выдачи шин для спецтехники с табличной частью, разработанного в конфигурации КА2. Номеклатура. . .

@soft.creator 106 / 106 / 11 Регистрация: 17.10.2010 Сообщений: 283
	22.08.2011, 19:21
	Смысл есть, если это же выражение потом используется повторно. Я лишь хотел показать, что там скобки лишние 0