Парсинг форума через BeautifulSoup - Python

@lijavefe · Регистрация: 25.11.2016

Студворк — интернет-сервис помощи студентам

Самостоятельно занимаюсь изучением языка Python.
Решил написать примитивный парсер сайта, используя библиотеку BeautifulSoup это код из видеоурока, чуть чуть подправил его под другой сайт.

Хочу получить название игр с 4pda.ru/forum/index.php?showforum=519

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import urllib.request
from bs4 import BeautifulSoup
 
def get_html(url):
    responce = urllib.request.urlopen(url)
    return responce.read()
 
def parse(html):
    soup = BeautifulSoup(html, 'html.parser')
    table = soup.find('table', cellspacing="1", class_='ipbtable')
 
    for row in table.find_all('tr')[6:]:
        cols = row.find_all('td')[2:]
        print(cols)
 
def main():
    parse(get_html('http://4pda.ru/forum/index.php?showforum=519'))
 
if __name__ == '__main__':
    main()

По итогу получаю:
~30 строк, в которых есть название игр.

HTML5
1
 [<td class="row2" onmousemove="info_mm(this);" onmouseout="info_mo(this);" valign="middle"><div style="float:right"></div><div><a href="//4pda.ru/forum/index.php?showtopic=507234&amp;view=getnewpost"><img alt="&gt;N" border="0" hspace="2" src="//s.4pda.to/gGBEYtjeU3NJBDvFsPce8tenuGB4DxNVAWqb6fSJ2Y.gif" title="Перейти к первому непрочитанному"/></a> <a href="#" onclick="PopUp('//4pda.ru/forum/index.php?act=attach&amp;code=showtopic&amp;tid=507234', 'Attach507234', 500,400); return false;" title="Прикрепленные файлы: 1529"><img alt="@" border="0" src="//s.4pda.to/gGBEupz15BoJekVtl0u8qSuLsRvJRP35z27AiLxRUabz2Rz2i9.gif"/></a><span id="tid-span-507234"><a href="//4pda.ru/forum/index.php?showtopic=507234" id="tid-link-507234" title="Тема создана 10.10.13, 21:25">Shadow Fight 2</a></span> *<a href="javascript:multi_page_jump('//4pda.ru/forum/index.php?showtopic=507234', 13974, 20 );" title="Переход по страницам"><img alt="*" border="0" src="//s.4pda.to/gGBEupz15Bke70wP9iUtKCGHSwADedWpe3WD6r0aD23z0WSH.gif"/></a> <span class="minipagelink"><a href="//4pda.ru/forum/index.php?showtopic=507234&amp;st=0">1</a></span><span class="minipagelink"><a href="//4pda.ru/forum/index.php?showtopic=507234&amp;st=20">2</a></span><span class="minipagelink"><a href="//4pda.ru/forum/index.php?showtopic=507234&amp;st=40">3</a></span><span class="minipagelinklast"><a href="//4pda.ru/forum/index.php?showtopic=507234&amp;st=13960">» 699</a></span><div class="desc"><span id="tid-desc-507234" onclick="return span_desc_to_input('507234');">[Экшн] файтинг от Nekki</span><span class="forumdesc"><i><br/>Куратор темы: <a href="//4pda.ru/forum/index.php?showuser=5767489">IlyaZelek</a></i></span></div></div></td>, <td align="center" class="row1"><a href="javascript:who_posted(507234);">13973</a></td>, <td align="center" class="row1"><a href="//4pda.ru/forum/index.php?showuser=669942">Alien Shooter</a></td>, <td align="center" class="row1">3975197</td>, <td class="row1"><span class="lastaction">Вчера, 19:26<br/><a href="//4pda.ru/forum/index.php?showtopic=507234&amp;view=getlastpost">Послед.:</a> <b><a href="///4pda.ru/forum/index.php?showuser=5328379">CJ888</a></b></span></td>]

Как мне очистить остальное? у меня постоянно выскакивает ошибка : Traceback (most recent call last):

@Wohilas · 23.03.2017, 20:33

Python
1
2
3
4
5
6
cols = row.find_all('td', class_='row2')
for col in cols:
    spans = col.find_all('span')
    for span in spans:
        if span.has_attr('id'):
            print(span.text)

проще использовать pandas

Python
1
df = pandas.read_html('http://4pda.ru/forum/index.php?showforum=519')

Jabbson · 23.03.2017, 22:56

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import urllib.request
from bs4 import BeautifulSoup
 
 
def get_html(url):
    response = urllib.request.urlopen(url)
    return response.read()
 
 
def parse(html):
    soup = BeautifulSoup(html, 'lxml')
    for name in soup.findAll('a', {"id": lambda x: x and x.startswith('tid-link-')}):
        print(name.text)
 
def main():
    parse(get_html('http://4pda.ru/forum/index.php?showforum=519'))
 
 
if __name__ == '__main__':
    main()

@lijavefe · 23.03.2017, 23:20 **[ТС]**

Спасибо, добавил еще срез на span и теперь выводит практически то, что надо.

Grand Theft Auto: San Andreas [3D]
N.O.V.A. Legacy (Наследие)[3D, Online]

как можно избавиться от [3D], [3D, Online] в конце каждого названия?

Jabbson · 24.03.2017, 01:37

Сообщение от lijavefe

как можно избавиться от [3D], [3D, Online] в конце каждого названия?

Python
1
print(name.text.split('[')[0])

@lijavefe · 24.03.2017, 10:57 **[ТС]**

Сообщение от Jabbson

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import urllib.request
from bs4 import BeautifulSoup
 
 
def get_html(url):
    response = urllib.request.urlopen(url)
    return response.read()
 
 
def parse(html):
    soup = BeautifulSoup(html, 'lxml')
    for name in soup.findAll('a', {"id": lambda x: x and x.startswith('tid-link-')}):
        print(name.text)
 
def main():
    parse(get_html('http://4pda.ru/forum/index.php?showforum=519'))
 
 
if __name__ == '__main__':
    main()

Почему-то твой код не запустился ((

Traceback (most recent call last):
File "C:/Users/Admin/PycharmProjects/untitled/test", line 21, in <module>
main()

Но фильтр по квадратным скобкам работает, спасибо. Я совместил твой код и код wohilas. Все отлично работает.

Теперь буду "реализовывать" переход по страницам

Новые блоги и статьи Все статьи Все блоги /
Вывод данных через динамический список в справочнике Maks 01.04.2026 Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .	Функция заполнения текстового поля в реквизите формы документа Maks 01.04.2026 Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .	К слову об оптимизации kumehtar 01.04.2026 Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .	Идея фильтра интернета (сервер = слой+фильтр). Hrethgir 31.03.2026 Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда anaschu 31.03.2026 В прикрепленном документе раздумья о том, как можно поменять модель в будущем	10 пpимет, которые всегда сбываются Maks 31.03.2026 1. Чтобы, наконец, пришла маршрутка, надо закурить. Если сигарета последняя, маршрутка придет еще до второй затяжки даже вопреки расписанию. 2. Нaдоели зима и снег? Не надо переезжать. Достаточно. . .	Перемещение выделенных строк ТЧ из одного документа в другой Maks 31.03.2026 Реализация из решения ниже выполнена на примере нетипового документа "ВыдачаОборудованияНаСпецтехнику" с единственной табличной частью "ОборудованиеИКомплектующие" разработанного в конфигурации КА2. . . .	Functional First Web Framework Suave DevAlt 30.03.2026 Sauve. IO Апнулись до NET10. Из зависимостей один пакет, работает одинаково хорошо как в режиме проекта так и в интерактивном режиме. из сложностей - чисто функциональный подход. Решил. . .

@lijavefe 0 / 0 / 0 Регистрация: 25.11.2016 Сообщений: 9
	23.03.2017, 23:20 [ТС]
	Спасибо, добавил еще срез на span и теперь выводит практически то, что надо. Grand Theft Auto: San Andreas [3D] N.O.V.A. Legacy (Наследие)[3D, Online] как можно избавиться от [3D], [3D, Online] в конце каждого названия? 0

Парсинг форума через BeautifulSoup - Python

Решение