Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.56/25: Рейтинг темы: голосов - 25, средняя оценка - 4.56
0 / 0 / 0
Регистрация: 25.11.2016
Сообщений: 9

Парсинг форума через BeautifulSoup - Python

23.03.2017, 16:46. Показов 5449. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Самостоятельно занимаюсь изучением языка Python.
Решил написать примитивный парсер сайта, используя библиотеку BeautifulSoup это код из видеоурока, чуть чуть подправил его под другой сайт.

Хочу получить название игр с 4pda.ru/forum/index.php?showforum=519

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import urllib.request
from bs4 import BeautifulSoup
 
def get_html(url):
    responce = urllib.request.urlopen(url)
    return responce.read()
 
def parse(html):
    soup = BeautifulSoup(html, 'html.parser')
    table = soup.find('table', cellspacing="1", class_='ipbtable')
 
    for row in table.find_all('tr')[6:]:
        cols = row.find_all('td')[2:]
        print(cols)
 
def main():
    parse(get_html('http://4pda.ru/forum/index.php?showforum=519'))
 
if __name__ == '__main__':
    main()
По итогу получаю:
~30 строк, в которых есть название игр.
HTML5
1
 [<td class="row2" onmousemove="info_mm(this);" onmouseout="info_mo(this);" valign="middle"><div style="float:right"></div><div><a href="//4pda.ru/forum/index.php?showtopic=507234&amp;view=getnewpost"><img alt="&gt;N" border="0" hspace="2" src="//s.4pda.to/gGBEYtjeU3NJBDvFsPce8tenuGB4DxNVAWqb6fSJ2Y.gif" title="Перейти к первому непрочитанному"/></a> <a href="#" onclick="PopUp('//4pda.ru/forum/index.php?act=attach&amp;code=showtopic&amp;tid=507234', 'Attach507234', 500,400); return false;" title="Прикрепленные файлы: 1529"><img alt="@" border="0" src="//s.4pda.to/gGBEupz15BoJekVtl0u8qSuLsRvJRP35z27AiLxRUabz2Rz2i9.gif"/></a><span id="tid-span-507234"><a href="//4pda.ru/forum/index.php?showtopic=507234" id="tid-link-507234" title="Тема создана 10.10.13, 21:25">Shadow Fight 2</a></span> *<a href="javascript:multi_page_jump('//4pda.ru/forum/index.php?showtopic=507234', 13974, 20 );" title="Переход по страницам"><img alt="*" border="0" src="//s.4pda.to/gGBEupz15Bke70wP9iUtKCGHSwADedWpe3WD6r0aD23z0WSH.gif"/></a> <span class="minipagelink"><a href="//4pda.ru/forum/index.php?showtopic=507234&amp;st=0">1</a></span><span class="minipagelink"><a href="//4pda.ru/forum/index.php?showtopic=507234&amp;st=20">2</a></span><span class="minipagelink"><a href="//4pda.ru/forum/index.php?showtopic=507234&amp;st=40">3</a></span><span class="minipagelinklast"><a href="//4pda.ru/forum/index.php?showtopic=507234&amp;st=13960">» 699</a></span><div class="desc"><span id="tid-desc-507234" onclick="return span_desc_to_input('507234');">[Экшн] файтинг от Nekki</span><span class="forumdesc"><i><br/>Куратор темы: <a href="//4pda.ru/forum/index.php?showuser=5767489">IlyaZelek</a></i></span></div></div></td>, <td align="center" class="row1"><a href="javascript:who_posted(507234);">13973</a></td>, <td align="center" class="row1"><a href="//4pda.ru/forum/index.php?showuser=669942">Alien Shooter</a></td>, <td align="center" class="row1">3975197</td>, <td class="row1"><span class="lastaction">Вчера, 19:26<br/><a href="//4pda.ru/forum/index.php?showtopic=507234&amp;view=getlastpost">Послед.:</a> <b><a href="///4pda.ru/forum/index.php?showuser=5328379">CJ888</a></b></span></td>]
Как мне очистить остальное? у меня постоянно выскакивает ошибка : Traceback (most recent call last):
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
23.03.2017, 16:46
Ответы с готовыми решениями:

Парсинг страницы python и получение запроса (beautifulSoup, requests)
Здравствуйте. Суть проблемы заключается в том, что для парсинга я получаю страницу, где должна быть таблица с данными, но в print(r.text)...

Парсинг сайта BeautifulSoup
Самостоятельно занимаюсь изучением языка Python. Решил написать примитивный парсер сайта, используя библиотеку BeautifulSoup, мало того...

Python + BeautifulSoup
Всем привет. Есть 2 вопроса, может кто сталкивался подскажет: 1. При парсинге сайта нужно взять текст записи. После взятия класса,...

5
18 / 18 / 2
Регистрация: 22.09.2015
Сообщений: 22
23.03.2017, 20:33
Лучший ответ Сообщение было отмечено lijavefe как решение

Решение

Python
1
2
3
4
5
6
cols = row.find_all('td', class_='row2')
for col in cols:
    spans = col.find_all('span')
    for span in spans:
        if span.has_attr('id'):
            print(span.text)
проще использовать pandas
Python
1
df = pandas.read_html('http://4pda.ru/forum/index.php?showforum=519')
1
Эксперт по компьютерным сетям
 Аватар для Jabbson
5906 / 3358 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
23.03.2017, 22:56
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import urllib.request
from bs4 import BeautifulSoup
 
 
def get_html(url):
    response = urllib.request.urlopen(url)
    return response.read()
 
 
def parse(html):
    soup = BeautifulSoup(html, 'lxml')
    for name in soup.findAll('a', {"id": lambda x: x and x.startswith('tid-link-')}):
        print(name.text)
 
def main():
    parse(get_html('http://4pda.ru/forum/index.php?showforum=519'))
 
 
if __name__ == '__main__':
    main()
1
0 / 0 / 0
Регистрация: 25.11.2016
Сообщений: 9
23.03.2017, 23:20  [ТС]
Спасибо, добавил еще срез на span и теперь выводит практически то, что надо.

Grand Theft Auto: San Andreas [3D]
N.O.V.A. Legacy (Наследие)[3D, Online]

как можно избавиться от [3D], [3D, Online] в конце каждого названия?
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5906 / 3358 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
24.03.2017, 01:37
Цитата Сообщение от lijavefe Посмотреть сообщение
как можно избавиться от [3D], [3D, Online] в конце каждого названия?
Python
1
print(name.text.split('[')[0])
1
0 / 0 / 0
Регистрация: 25.11.2016
Сообщений: 9
24.03.2017, 10:57  [ТС]
Цитата Сообщение от Jabbson Посмотреть сообщение
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import urllib.request
from bs4 import BeautifulSoup
 
 
def get_html(url):
    response = urllib.request.urlopen(url)
    return response.read()
 
 
def parse(html):
    soup = BeautifulSoup(html, 'lxml')
    for name in soup.findAll('a', {"id": lambda x: x and x.startswith('tid-link-')}):
        print(name.text)
 
def main():
    parse(get_html('http://4pda.ru/forum/index.php?showforum=519'))
 
 
if __name__ == '__main__':
    main()
Почему-то твой код не запустился ((

Traceback (most recent call last):
File "C:/Users/Admin/PycharmProjects/untitled/test", line 21, in <module>
main()

Но фильтр по квадратным скобкам работает, спасибо. Я совместил твой код и код wohilas. Все отлично работает.

Теперь буду "реализовывать" переход по страницам
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
24.03.2017, 10:57
Помогаю со студенческими работами здесь

Не работает BeautifulSoup Python
Хочу запарсить с сайта из вот этого фрагмента HTML: &lt;td data-val=&quot;3248&quot;...

Python + BeautifulSoup. Поиск содержимого в тегах
Всем доброго времени суток! Может кто подскажет как работать с содержимым класса? Конкретный вопрос: Есть класс с тэгом div,...

Парсинг на Python. BeautifulSoup, bs4, requests
Добрый день. Нужна помощь от людей, кто работал с BeautifulSoup на Python. Пытаюсь получить со страницы проверки QR кода на ГосУслугах дату...

Парсинг BeautifulSoup
Добрый день. Имеется веб страница из которой нужно спарсить даты, имена и комментарии в формате: 23 мар. UserName: комментарий 24 мар....

Парсинг, beautifulsoup, некорректная HTML разметка
Доброго времени суток! Изучаю парсинг сайтов. Beautifulsoup, lxml. Столкнулся с такой проблемой: при обращении к странице получаю...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru