С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.92/25: Рейтинг темы: голосов - 25, средняя оценка - 4.92
1 / 1 / 0
Регистрация: 30.03.2013
Сообщений: 59

Парсинг html

07.10.2017, 16:44. Показов 4850. Ответов 11
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравстувуйте.
Начинаю изучать python.
В качестве тренировочной задачи делаю такую
Есть html страница. В ней есть столбец имя человека и email
Как сделать так, чтобы если имя совпадало с Коля, Коле присылалось письмо "Привет, Коля".
В целом не интересую контретный код, а советы как это можно написать.
Спасибо.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
07.10.2017, 16:44
Ответы с готовыми решениями:

Парсинг HTML
Ну в общем, довольно заезженная тема, проведя на просторах интернета несколько часов, я это понял. Но вопросы все же остались. Суть...

Парсинг JS в HTML
При помощи bs4 спарсил html страницу и в ней есть строка для примера var Variable =...

Парсинг html страницы
хочу сделать автоматическое скачивание файлов по ключевому слову на картинке есть кнопка которая выдаёт ссылку на скачку(первая...

11
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
07.10.2017, 17:09
В общем случае, сначала нужно хтмл страничку превратить в дерево элементов, потом найти в элементах таблицу, обойти таблицу и выполнить логику, которая вам нужна. Для этого можно использовать модули

requests, если таблицу нужно загрузить из интернета
lxml / beautifulsoup, для поиска по дереву элементов
smtplib - для посылки письма

спрашивайте, если что-то не разберетесь, с удовольствием поможем
1
1 / 1 / 0
Регистрация: 30.03.2013
Сообщений: 59
08.10.2017, 15:55  [ТС]
Для тестовых целей попробывал просто найти слово Коля в html таблице
Python
1
2
3
4
5
6
7
from bs4 import BeautifulSoup
def main ():
    my = open ('table.html').read
    soup = BeautifulSoup (my)
    div = soup.find ('Коля')
    print (div)
main ()
Я так понимаю, что здесь происходит:
Подключаем модуль
Созадём функцию
Загружаем мою таблицу
Создаём объект супа.
Ищем в таблице слово Коля
Печатаем найденное
Вызываем функцию.
Но появляется ошибка
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
 BeautifulSoup(YOUR_MARKUP})
to this:
 
 BeautifulSoup(YOUR_MARKUP, "lxml")
 
  markup_type=markup_type))
Traceback (most recent call last):
  File "parser.py", line 12, in <module>
    main ()
  File "parser.py", line 5, in main
    soup = BeautifulSoup (my)
  File "/home/user1/environments/my_env/lib/python3.5/site-packages/bs4/__init__.py", line 192, in __init__
    elif len(markup) <= 256 and (
TypeError: object of type 'builtin_function_or_method' has no len()
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
08.10.2017, 16:07
Сверху ошибки же написано что и на что поменять нужно
0
1 / 1 / 0
Регистрация: 30.03.2013
Сообщений: 59
09.10.2017, 20:03  [ТС]
Исправил так:
Python
1
2
3
4
5
6
7
from bs4 import BeautifulSoup
def main ():
    my = open ('table.html').read
    soup = BeautifulSoup (my,'html.parser')
    div = soup.find ('Коля')
    print (div)
main ()
Появилась ошибка
Python
1
2
3
4
5
6
7
8
Traceback (most recent call last):
  File "parser.py", line 12, in <module>
    main ()
  File "parser.py", line 5, in main
    soup = BeautifulSoup (my,'html.parser')
  File "/home/user1/environments/my_env/lib/python3.5/site-packages/bs4/__init__.py", line 192, in __init__
    elif len(markup) <= 256 and (
TypeError: object of type 'builtin_function_or_method' has no len()
Что не так ? )
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
09.10.2017, 20:10
Ну .read же не так!!!! Нет такого свойства. Есть такой метод. Со скобками read()
0
1 / 1 / 0
Регистрация: 30.03.2013
Сообщений: 59
09.10.2017, 21:59  [ТС]
Спасибо
Исправил так
Python
1
2
3
4
5
def main ():
    my = open ('table.html')
    soup = BeautifulSoup (my.read(),'html.parser')
    div = soup.find_all ('tr')
    print (div)
Теперь думаю вытащить из тэгов всех Коль и вывести их на экран. Прошу совета.
Если, что мой html документ
HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
<table>
    <tr>
    <th>Имя</th>
    <th>Дата рождения</th>
    <th>Email</th>
  </tr>
  <tr>
    <td>Гена</td>
    <td>22031986</td>
    <td>sdgdgg@o.com</td>
  </tr>
  <tr>
    <td>Коля</td>
    <td>2203198336</td>
    <td>2dfdfdffv@gmail.com</td>
  </tr>
   <tr>
    <td>Коля</td>
    <td>22041986</td>
    <td>sdgdавgg@o.com</td>
  </tr>
</table>
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
09.10.2017, 23:35
Python
1
2
3
4
5
6
7
8
9
10
11
from lxml import html
 
with open('your_html.txt') as f_in:
    table = f_in.read()
 
all_trs = html.fromstring(table).findall('tr')
 
for tr in all_trs[1:]:
    all_tds = tr.findall('td')
    if all_tds[0].text == 'Коля':
        print([td.text for td in all_tds])
0
1 / 1 / 0
Регистрация: 30.03.2013
Сообщений: 59
10.10.2017, 21:41  [ТС]
Мой вариант:
Python
1
2
3
4
5
6
7
8
9
def main ():
    my = open ('table.html')
    soup = BeautifulSoup (my.read(),'html.parser')
    div2 = soup.find_all ('td')
    for namess in div2:
       names = namess .contents [0]
       if names == 'Вова':
           print (names) 
main ()
Только я не совсем понимаю
Python
1
2
for namess in div2:
       names = namess .contents [0]
Contents -создаёт список содержимого тэгов ?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
10.10.2017, 23:28
Cписок дочерних узлов родителя, если дочерний узел - текстовая нода - вернет текст.

P.S. А ставить пробелы между именем функции и скобками (или перед точкой) - это чтобы парсер python'а проверить на модель "прощающего разбора"?
0
1 / 1 / 0
Регистрация: 30.03.2013
Сообщений: 59
11.10.2017, 20:26  [ТС]
Теперь думаю как сделать так, чтобы если у Коле сегодня день рождения, Васе на почту пришло: Привет Вася, поздравь Колю.
Правильно ли я понимаю, что нужно сначала создать словарь с ключами имя, дата, почта.
Коллеги, прошу не присылать мне готовый код.
Хочется самим дойти до него.
0
10 / 10 / 2
Регистрация: 07.12.2017
Сообщений: 40
07.12.2017, 13:20
Смотри findall('tr') возвращает список с найденными совпадениями тоесть tr (<tr> .....</tr>)
дальше цикл перебирающий найденное с помощью findall('td'). Возвращает список с td судя по твоему файлу
findall('td')[0] это имя
findall('td')[1] дата рождения
findall('td')[2] эмейл
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
07.12.2017, 13:20
Помогаю со студенческими работами здесь

Парсинг html страницы картинок
Здравствуйте. Есть код: import requests from bs4 import BeautifulSoup as bs import random import lxml.html r =...

Парсинг залогиненной html страницы
есть код import requests from json import loads from bs4 import BeautifulSoup import re from selenium import webdriver ...

Парсинг и замена текста в html (python3)
Приветствую Друзья, если не затруднит, подскажите решение для python3. Есть некий html файл, вполне себе стандартный, в нем среди...

Парсинг html
Доброго времени суток, столкнулся с такой проблемой, как парсить теги h2 которые находятся в классе post__content typeset, при этом точно...

Парсинг HTML
У меня есть html документ, в котором записаны результаты матчей по теннису. Из данного html документа мне нужно получить названия лиг и...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
12
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru