Парсер веб-сайтов BeautifulSoup -- вытягиваем информацию

@jvf · Регистрация: 27.05.2017

Студворк — интернет-сервис помощи студентам

Есть некий файл в интернете с такими областями:

HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
<tr class=white>
  
    <td align=center>0054</td>
    <td>
      <a href=?main=task&id_task=54>Теория игр</a>
    </td>
    <td align=center>Двумерные массивы</td>
  
    <td align=center>&nbsp;</td>
  
    <td align=center>28%
      
    </td>
    <td align=center>93%</td>
    <td align=right><a href=index.asp?main=status&id_t=54&id_res=1>2066</a></td>
  </tr>

На самом деле, в этом файле ещё много что есть. Но таких конструкций там много, и я хочу вытянуть "0054", "28%" и "93%" для каждой такой конструкции.

На самом деле, я решил эту задачу: просто вытянул все строки с помощью BeautifulSoup, а затем с помощью стандартных методов создал DataFrame и всё туда записал. Но мне такой подход кажется неправильным, потому что мы игнорируем все тэги, а тупо всё переводим в текст, потом текст анализируем. Думаю, что существует более быстро и изящное решение: пробежаться по дереву, используя тэги.

Но как это сделать?

Добавлено через 1 час 12 минут
Первое продвижение: научился вытаскивать название задачи.

Оказывается, это можно сделать довольно просто:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import pandas as pd
from bs4 import BeautifulSoup
from urllib.request import urlopen
 
page = urlopen("http://********/index.asp?main=tasks&str=%20&page=10&id_type=0") 
soup = BeautifulSoup(page, 'html.parser')
 
table = soup.find('table', attrs={'class':'white'})
 
print(table)
 
 
for message in soup.find_all("tr", attrs={'class':'white'}):
   
    d = message
 
    print(d.a.get_text())

Теперь осталось вытащить эти записи в процентах: в данном случае 28% и 53%.

Они прячутся не за тэгом "а", поэтому здесь должен быть другой подход.

Добавлено через 20 минут
Update:

Сумел вытащить название задачи и проценты. Всё работает, но есть одно но: этот код
if "%" in a.getText():
код не выглядит оптимальным. Как-то это можно решить через тэги, чтобы всё работало быстрее. Как это можно было бы сделать? Иначе я не использую всё преимущество BeautifulSoup, а как-то решаю задачу через всякие медленные штуки.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import pandas as pd
from bs4 import BeautifulSoup
from urllib.request import urlopen
 
page = urlopen("http://********/index.asp?main=tasks&str=%20&page=10&id_type=0") 
soup = BeautifulSoup(page, 'html.parser')
 
table = soup.find('table', attrs={'class':'white'})
 
print(table)
 
 
for message in soup.find_all("tr", attrs={'class':'white'}):
   
    d = message
 
    print("Название задачи")
    print(d.a.get_text())
  
    answ = d.find_all("td", attrs={'align':'center'})
    
    print("Проценты")
    for a in answ:
        if "%" in a.getText():
            print(a.getText())
    print()

Добавлено через 13 минут
Update:
Всё задачу решил, всё вытащил красиво.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import pandas as pd
from bs4 import BeautifulSoup
from urllib.request import urlopen
 
page = urlopen("http://********/index.asp?main=tasks&str=%20&page=10&id_type=0") 
soup = BeautifulSoup(page, 'html.parser')
 
table = soup.find('table', attrs={'class':'white'})
 
print(table)
 
for message in soup.find_all("tr", attrs={'class':'white'}):
   
    d = message
 
    print("Название задачи")
    print(d.a.get_text())
  
    answ = d.find_all("td", attrs={'align':'center'})
    
    print("Сложность задачи")
    
    print(answ[3].getText())
    print("Решаемость задачи задачи")
    print(answ[4].getText())
    print()

Всё теперь выглядит пристойно. И этот вариант намного лучше, чем мой первый, когда я выдирал весь текст, а потом его анализировал.

Новые блоги и статьи Все статьи Все блоги /
Как я обхитрил таблицу Word Alexander-7 21.03.2026 Когда мигает курсор у внешнего края таблицы, и нам надо перейти на новую строку, а при нажатии Enter создается новый ряд таблицы с ячейками, то мы вместо нервных нажатий Энтеров мы пишем любые буквы. . .	Krabik - рыболовный бот для WoW 3.3.5a AmbA 21.03.2026 без регистрации и смс. Это не торговля, приложение не содержит рекламы. Выполняет свою непосредственную задачу - автоматизацию рыбалки в WoW - и ничего более. Однако если админы будут против -. . .	Программный отбор значений справочника Maks 21.03.2026 Установка программного отбора значений справочника "Сотрудники" из модуля формы документа. В качестве фильтра для отбора служит предопределенное значение перечислений. Процедура. . .	Переходник USB-CAN-GPIO Eddy_Em 20.03.2026 Достаточно давно на работе возникла необходимость в переходнике CAN-USB с гальваноразвязкой, оный и был разработан. Однако, все меня терзала совесть, что аж 48-ногий МК используется так тупо: просто. . .
Оттенки серого Argus19 18.03.2026 Оттенки серого Нашёл в интернете 3 прекрасных модуля: Модуль класса открытия диалога открытия/ сохранения файла на Win32 API; Модуль класса быстрого перекодирования цветного изображения в оттенки. . .	SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++ 8Observer8 17.03.2026 Содержание блога Финальные проекты на Си и на C++: finish-rectangles-sdl3-c. zip finish-rectangles-sdl3-cpp. zip	Символические и жёсткие ссылки в Linux. algri14 15.03.2026 Существует два типа ссылок — символические и жёсткие. Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .	[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ФедосеевПавел 14.03.2026 Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .