|
0 / 0 / 0
Регистрация: 27.02.2011
Сообщений: 38
|
||||||
Проблемный парсер сайта22.08.2011, 13:03. Показов 5863. Ответов 26
Метки нет (Все метки)
Пмогите плизз, давно уже ломаю голову, хотел написать парсер сайта, чтобы выводил все, что находится между тэгами <table></table>я так понимаю необходимо использовать регулярные выражения, но у меня не получается...помогите.....ниже приведена самая функция, по которой происходит извлечение данных
AttributeError: 'tuple' object has no attribute 'findall' как быть и что делать????
0
|
||||||
| 22.08.2011, 13:03 | |
|
Ответы с готовыми решениями:
26
Парсер картинок с сайта Парсер сайта и ссылок с сайта Парсер сайта |
|
106 / 106 / 11
Регистрация: 17.10.2010
Сообщений: 283
|
||||||
| 22.08.2011, 14:08 | ||||||
|
Все же правильно так:
1
|
||||||
|
224 / 209 / 63
Регистрация: 26.05.2011
Сообщений: 363
|
||||||
| 22.08.2011, 17:04 | ||||||
|
А в чем смысл использования функции compile? почему не
0
|
||||||
|
5828 / 3479 / 358
Регистрация: 08.02.2010
Сообщений: 7,448
|
|
| 22.08.2011, 18:42 | |
|
0
|
|
|
224 / 209 / 63
Регистрация: 26.05.2011
Сообщений: 363
|
|
| 22.08.2011, 18:48 | |
|
0
|
|
|
106 / 106 / 11
Регистрация: 17.10.2010
Сообщений: 283
|
|
| 22.08.2011, 19:21 | |
|
Смысл есть, если это же выражение потом используется повторно.
Я лишь хотел показать, что там скобки лишние
0
|
|
|
5828 / 3479 / 358
Регистрация: 08.02.2010
Сообщений: 7,448
|
|||||||
| 22.08.2011, 19:25 | |||||||
1
|
|||||||
|
5828 / 3479 / 358
Регистрация: 08.02.2010
Сообщений: 7,448
|
||
| 22.08.2011, 19:28 | ||
|
0
|
||
|
0 / 0 / 0
Регистрация: 27.02.2011
Сообщений: 38
|
||||||
| 23.08.2011, 08:42 [ТС] | ||||||
TypeError: can't use a string pattern on a bytes-like object
0
|
||||||
|
4866 / 3288 / 468
Регистрация: 10.12.2008
Сообщений: 10,570
|
||||||
| 23.08.2011, 11:10 | ||||||
1
|
||||||
|
0 / 0 / 0
Регистрация: 27.02.2011
Сообщений: 38
|
||||||
| 23.08.2011, 13:32 [ТС] | ||||||
|
и все таки, подскажите как сделать, чтобы отобразилось, все что находится между двумя тэгами <body></body> используя библиотеку urllib и рег выражения?.....
0
|
||||||
|
4866 / 3288 / 468
Регистрация: 10.12.2008
Сообщений: 10,570
|
||||||
| 24.08.2011, 02:12 | ||||||
|
следи за отступами, так как они определяют блоки (как { } в C)
для работы с тегами html используй html
0
|
||||||
|
95 / 1 / 1
Регистрация: 01.08.2011
Сообщений: 35
|
|||||||
| 24.08.2011, 18:18 | |||||||
0
|
|||||||
|
4866 / 3288 / 468
Регистрация: 10.12.2008
Сообщений: 10,570
|
|||
| 25.08.2011, 02:29 | |||
0
|
|||
|
95 / 1 / 1
Регистрация: 01.08.2011
Сообщений: 35
|
||||||
| 25.08.2011, 02:44 | ||||||
|
accept, а если таблицы будут не вложенные, а будут идти перемешанными с текстом? Ведь тогда и все эти таблицы и текст между ними захватятся.
Я бы сделал как-нибудь так:
0
|
||||||
|
4866 / 3288 / 468
Регистрация: 10.12.2008
Сообщений: 10,570
|
|||
| 25.08.2011, 02:50 | |||
если напишешь для невложенных, будет неправильно для вложенных если напишешь для вложенных, будет неправильно для невложенных
нужно через html делать
0
|
|||
|
95 / 1 / 1
Регистрация: 01.08.2011
Сообщений: 35
|
||
| 25.08.2011, 03:05 | ||
|
на stackoverflow обсуждалось, что regexp-ы совершенно не предназначены дла распарсивания таких вот вложенных структур (в данном случае <table> в <table>)
0
|
||
|
4866 / 3288 / 468
Регистрация: 10.12.2008
Сообщений: 10,570
|
||
| 25.08.2011, 03:05 | ||
0
|
||
|
4866 / 3288 / 468
Регистрация: 10.12.2008
Сообщений: 10,570
|
||
| 25.08.2011, 03:07 | ||
0
|
||
|
95 / 1 / 1
Регистрация: 01.08.2011
Сообщений: 35
|
||
| 25.08.2011, 03:08 | ||
|
0
|
||
| 25.08.2011, 03:08 | |
|
Помогаю со студенческими работами здесь
20
Парсер сайта Парсер сайта с Авторизацией Парсер закрытого сайта Написать парсер для сайта Парсер сайта криптовалют на Питоне Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Midnight Chicago Blues
kumehtar 24.03.2026
Такой Midnight Chicago Blues, знаешь?. .
Когда вечерние улицы становятся ночными, а ты не можешь уснуть. Ты идёшь в любимый старый бар, и бармен наливает тебе виски. Ты смотришь на пролетающие. . .
|
Контроль уникальности заводского номера - вариант №2
Maks 24.03.2026
В отличие от предыдущего варианта добавлено прерывание циклов, также добавлены новые переменные для сохранения контекста ошибки перед прерыванием цикла:
Процедура ПередЗаписью(Отказ, РежимЗаписи,. . .
|
SDL3 для Desktop (MinGW): Вывод текста со шрифтом TTF с помощью библиотеки SDL3_ttf на Си и C++
8Observer8 24.03.2026
Содержание блога
Финальные проекты на Си и на C++:
finish-text-sdl3-c. zip
finish-text-sdl3-cpp. zip
|
Жизнь в неопределённости
kumehtar 23.03.2026
Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .
|
|
Модель здравоСохранения: работники работают быстрее после её введения.
anaschu 23.03.2026
geJalZw1fLo
Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло.
Но на выплатах по больничным это. . .
|
Контроль уникальности заводского номера - вариант №1
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере документа выдачи шин для спецтехники с табличной частью. Данные берутся из регистра сведений, по которому настроено. . .
|
Хочу заставить корпорации вкладываться в здоровье сотрудников: делаю мат модель здравосохранения
anaschu 22.03.2026
e7EYtONaj8Y
Z4Tv2zpXVVo
https:/ / github. com/ shumilovas/ med2. git
|
Программный отбор элементов справочника по группе
Maks 22.03.2026
Установка программного отбора элементов справочника "Номенклатура" из модуля формы документа.
В качестве фильтра для отбора справочника служит группа номенклатуры.
Отбор по наименованию группы. . .
|