Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
7 / 7 / 3
Регистрация: 27.05.2017
Сообщений: 89
Записей в блоге: 10

Парсер веб-сайтов BeautifulSoup -- вытягиваем информацию

22.06.2017, 23:29. Показов 1924. Ответов 0

Студворк — интернет-сервис помощи студентам
Есть некий файл в интернете с такими областями:

HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
<tr class=white>
  
    <td align=center>0054</td>
    <td>
      <a href=?main=task&id_task=54>Теория игр</a>
    </td>
    <td align=center>Двумерные массивы</td>
  
    <td align=center>&nbsp;</td>
  
    <td align=center>28%
      
    </td>
    <td align=center>93%</td>
    <td align=right><a href=index.asp?main=status&id_t=54&id_res=1>2066</a></td>
  </tr>
На самом деле, в этом файле ещё много что есть. Но таких конструкций там много, и я хочу вытянуть "0054", "28%" и "93%" для каждой такой конструкции.

На самом деле, я решил эту задачу: просто вытянул все строки с помощью BeautifulSoup, а затем с помощью стандартных методов создал DataFrame и всё туда записал. Но мне такой подход кажется неправильным, потому что мы игнорируем все тэги, а тупо всё переводим в текст, потом текст анализируем. Думаю, что существует более быстро и изящное решение: пробежаться по дереву, используя тэги.

Но как это сделать?

Добавлено через 1 час 12 минут
Первое продвижение: научился вытаскивать название задачи.

Оказывается, это можно сделать довольно просто:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import pandas as pd
from bs4 import BeautifulSoup
from urllib.request import urlopen
 
page = urlopen("http://********/index.asp?main=tasks&str=%20&page=10&id_type=0") 
soup = BeautifulSoup(page, 'html.parser')
 
table = soup.find('table', attrs={'class':'white'})
 
print(table)
 
 
for message in soup.find_all("tr", attrs={'class':'white'}):
   
    d = message
 
    print(d.a.get_text())
Теперь осталось вытащить эти записи в процентах: в данном случае 28% и 53%.

Они прячутся не за тэгом "а", поэтому здесь должен быть другой подход.

Добавлено через 20 минут
Update:

Сумел вытащить название задачи и проценты. Всё работает, но есть одно но: этот код
if "%" in a.getText():
код не выглядит оптимальным. Как-то это можно решить через тэги, чтобы всё работало быстрее. Как это можно было бы сделать? Иначе я не использую всё преимущество BeautifulSoup, а как-то решаю задачу через всякие медленные штуки.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import pandas as pd
from bs4 import BeautifulSoup
from urllib.request import urlopen
 
page = urlopen("http://********/index.asp?main=tasks&str=%20&page=10&id_type=0") 
soup = BeautifulSoup(page, 'html.parser')
 
table = soup.find('table', attrs={'class':'white'})
 
print(table)
 
 
for message in soup.find_all("tr", attrs={'class':'white'}):
   
    d = message
 
    print("Название задачи")
    print(d.a.get_text())
  
    answ = d.find_all("td", attrs={'align':'center'})
    
    print("Проценты")
    for a in answ:
        if "%" in a.getText():
            print(a.getText())
    print()
Добавлено через 13 минут
Update:
Всё задачу решил, всё вытащил красиво.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import pandas as pd
from bs4 import BeautifulSoup
from urllib.request import urlopen
 
page = urlopen("http://********/index.asp?main=tasks&str=%20&page=10&id_type=0") 
soup = BeautifulSoup(page, 'html.parser')
 
table = soup.find('table', attrs={'class':'white'})
 
print(table)
 
for message in soup.find_all("tr", attrs={'class':'white'}):
   
    d = message
 
    print("Название задачи")
    print(d.a.get_text())
  
    answ = d.find_all("td", attrs={'align':'center'})
    
    print("Сложность задачи")
    
    print(answ[3].getText())
    print("Решаемость задачи задачи")
    print(answ[4].getText())
    print()
Всё теперь выглядит пристойно. И этот вариант намного лучше, чем мой первый, когда я выдирал весь текст, а потом его анализировал.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
22.06.2017, 23:29
Ответы с готовыми решениями:

Парсер Python BeautifulSoup
Всем доброго времени суток. Помогите пожалуйста решить вопрос. Я новичок в Пайтоне При парсинге сайтов с доменом &quot;ru&quot; выдает...

Исследование защищённости веб-сайтов и отдельных веб-приложений
Здравствуйте. Меня зовут Антон Кузьмин. Я занимаюсь созданием и защитой веб-приложений. Опыт работы в данной области более 5 лет. ...

Авторизация с веб клиента для веб сайтов
Всем привет! Нада сделать программу, что бы через нее было можно сидеть на сайте. Что то типа клиента для windows. Так вот, как сделать...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
22.06.2017, 23:29
Помогаю со студенческими работами здесь

Парсер сайтов
Добрый вечер! Есть скрипт на Питоне. Парсит forebet, predictz, windrawwin, soccervista, prosoccer, vitibet . Хочу добавить туда еще сайт...

парсер сайтов
Добрый день. подскажите пожалуйста. нужно написать парсер который будет собирать информацыю про хайп мониторинги. и нужну ищо что бы можна...

Парсер сайтов
Это правда, что Python - лучше всего подходит для парсинга? Хочеться услышать ответ от настоящих - живых Python - программистов! К примеру...

Парсер сайтов в 1С
Добрый день! Подскажите пожалуйста книги и темы, видеоуроки для обучения программированию в 1С для разработки парсера сайтов на...

Парсер сайтов
Доброй ночи, есть известные свободные (gnu) библиотеки для сабжа? Добавлено через 1 час 0 минут Нашел варианты: 1. libcurl для...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
Как я обхитрил таблицу Word
Alexander-7 21.03.2026
Когда мигает курсор у внешнего края таблицы, и нам надо перейти на новую строку, а при нажатии Enter создается новый ряд таблицы с ячейками, то мы вместо нервных нажатий Энтеров мы пишем любые буквы. . .
Krabik - рыболовный бот для WoW 3.3.5a
AmbA 21.03.2026
без регистрации и смс. Это не торговля, приложение не содержит рекламы. Выполняет свою непосредственную задачу - автоматизацию рыбалки в WoW - и ничего более. Однако если админы будут против -. . .
Программный отбор значений справочника
Maks 21.03.2026
Установка программного отбора значений справочника "Сотрудники" из модуля формы документа. В качестве фильтра для отбора служит предопределенное значение перечислений. Процедура. . .
Переходник USB-CAN-GPIO
Eddy_Em 20.03.2026
Достаточно давно на работе возникла необходимость в переходнике CAN-USB с гальваноразвязкой, оный и был разработан. Однако, все меня терзала совесть, что аж 48-ногий МК используется так тупо: просто. . .
Оттенки серого
Argus19 18.03.2026
Оттенки серого Нашёл в интернете 3 прекрасных модуля: Модуль класса открытия диалога открытия/ сохранения файла на Win32 API; Модуль класса быстрого перекодирования цветного изображения в оттенки. . .
SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++
8Observer8 17.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-rectangles-sdl3-c. zip finish-rectangles-sdl3-cpp. zip
Символические и жёсткие ссылки в Linux.
algri14 15.03.2026
Существует два типа ссылок — символические и жёсткие. Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru