|
0 / 0 / 0
Регистрация: 27.02.2011
Сообщений: 38
|
||||||
Проблемный парсер сайта22.08.2011, 13:03. Показов 5860. Ответов 26
Метки нет (Все метки)
Пмогите плизз, давно уже ломаю голову, хотел написать парсер сайта, чтобы выводил все, что находится между тэгами <table></table>я так понимаю необходимо использовать регулярные выражения, но у меня не получается...помогите.....ниже приведена самая функция, по которой происходит извлечение данных
AttributeError: 'tuple' object has no attribute 'findall' как быть и что делать????
0
|
||||||
| 22.08.2011, 13:03 | |
|
Ответы с готовыми решениями:
26
Парсер картинок с сайта Парсер сайта и ссылок с сайта Парсер сайта |
|
4866 / 3288 / 468
Регистрация: 10.12.2008
Сообщений: 10,570
|
|
| 25.08.2011, 03:10 | |
|
0
|
|
|
95 / 1 / 1
Регистрация: 01.08.2011
Сообщений: 35
|
||||||||||||||
| 25.08.2011, 03:15 | ||||||||||||||
|
Я в том обсуждении только этот вывод запомнил, но все его читать не стал (очень много там всего было). Добавлено через 1 минуту Добавлено через 2 минуты
так как и в случае наличия там > сразу после tag, так и в случае отсутствия они все равно одинаково сработают.
0
|
||||||||||||||
|
4866 / 3288 / 468
Регистрация: 10.12.2008
Сообщений: 10,570
|
|||||||
| 25.08.2011, 03:19 | |||||||
то есть не будет разделения на тег [ с атрибутами ] и содержимое тега
0
|
|||||||
|
95 / 1 / 1
Регистрация: 01.08.2011
Сообщений: 35
|
|
| 25.08.2011, 03:20 | |
|
Понятно. Я просто такие не встречал.
Вообще, лучше regexp лучше подбирать под каждую конкретную группу похожих страниц. На Хабрахабре писали в комментариях, что не смотря на ограничения у regexp-ов по обработке страниц, все равно ими пользуются, т.к. они работают гораздо быстрее html-парсера, и если что-то нужно выдернуть из html, и понятно, как это место описать в regex-е, то лучше и быстрее им воспользоваться.
0
|
|
|
4866 / 3288 / 468
Регистрация: 10.12.2008
Сообщений: 10,570
|
|||
| 25.08.2011, 03:27 | |||
https://www.cyberforum.ru/post1937747.html
я тоже не встречал, просто такой вариант firefox показывает нормально модуль html поддерживает контроль за уровнями тегов, там не перепутаешь
0
|
|||
|
0 / 0 / 0
Регистрация: 27.02.2011
Сообщений: 38
|
|
| 25.08.2011, 12:14 [ТС] | |
|
вижу моя тема вызвала дискуссии....подскажите пожалуйста, может будет проще реализовать тогда парсер с помощью lxml? если да, то вопрос как?а то я вообще не понимаю ничего......подскажите плиз.....
0
|
|
|
4866 / 3288 / 468
Регистрация: 10.12.2008
Сообщений: 10,570
|
|
| 26.08.2011, 01:49 | |
|
а html не подошёл ?
https://www.cyberforum.ru/post1935333.html
0
|
|
| 26.08.2011, 01:49 | |
|
Помогаю со студенческими работами здесь
27
Парсер сайта Парсер сайта с Авторизацией Парсер закрытого сайта Написать парсер для сайта Парсер сайта криптовалют на Питоне Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Контроль уникальности заводского номера - вариант №2
Maks 24.03.2026
В отличие от предыдущего варианта добавлено прерывание циклов, также добавлены новые переменные для сохранения контекста ошибки перед прерыванием цикла:
Процедура ПередЗаписью(Отказ, РежимЗаписи,. . .
|
SDL3 для Desktop (MinGW): Вывод текста со шрифтом TTF с помощью библиотеки SDL3_ttf на Си и C++
8Observer8 24.03.2026
Содержание блога
Финальные проекты на Си и на C++:
finish-text-sdl3-c. zip
finish-text-sdl3-cpp. zip
|
Жизнь в неопределённости
kumehtar 23.03.2026
Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .
|
Модель здравоСохранения: работники работают быстрее после её введения.
anaschu 23.03.2026
geJalZw1fLo
Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло.
Но на выплатах по больничным это. . .
|
|
Контроль уникальности заводского номера - вариант №1
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере документа выдачи шин для спецтехники с табличной частью. Данные берутся из регистра сведений, по которому настроено. . .
|
Хочу заставить корпорации вкладываться в здоровье сотрудников: делаю мат модель здравосохранения
anaschu 22.03.2026
e7EYtONaj8Y
Z4Tv2zpXVVo
https:/ / github. com/ shumilovas/ med2. git
|
Программный отбор элементов справочника по группе
Maks 22.03.2026
Установка программного отбора элементов справочника "Номенклатура" из модуля формы документа.
В качестве фильтра для отбора справочника служит группа номенклатуры.
Отбор по наименованию группы. . .
|
Как я обхитрил таблицу Word
Alexander-7 21.03.2026
Когда мигает курсор у внешнего края таблицы, и нам надо перейти на новую строку, а при нажатии Enter создается новый ряд таблицы с ячейками, то мы вместо нервных нажатий Энтеров мы пишем любые буквы. . .
|