Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.64/11: Рейтинг темы: голосов - 11, средняя оценка - 4.64
0 / 0 / 0
Регистрация: 05.08.2019
Сообщений: 24

Как исключить из парсинга определённые столбцы HTML таблицы?

28.08.2020, 19:11. Показов 2569. Ответов 12

Студворк — интернет-сервис помощи студентам
Здравствуйте.

Версия Python:
Python 3.7.6
Используемые модули:
requests 2.23.0
beautifulsoup4 4.9.0
csv


Есть множество различных HTML таблиц на сайте, в них может отличаться всё кроме последних трёх столбцов. Пример таблицы:
Кликните здесь для просмотра всего текста
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
<table class="card-table responsive"> <thead>
<tr>
<th class="n1" data-th="Название">
<span class="bt-content"><span>Наименование</span></span>
</th>
<th data-th="Раб. Объем, См³/об."><span class="bt-content">
<span class="ct" style="background-image: url();">
</span>Раб. Объем, См³/об.</span>
</th>
<th data-th="Макс. давление бар"><span class="bt-content">
<span class="ct" style="background-image: url();">
</span>Макс. давление бар</span>
</th>
<th data-th="Действие"><span class="bt-content">
<span class="ct" style="background-image: url();">
</span>Действие</span>
</th>
<th data-th="Резьба"><span class="bt-content">
<span class="ct" style="background-image: url();">
</span>Резьба</span>
</th>
<th class="n9" data-th="Наличие"><span class="bt-content"><span><span class="ct n8"></span>Наличие</span>
</span>
</th>
<th class="n10" data-th="Цена"><span class="bt-content"><span><span class="ct n9"></span>Цена</span>
</span>
</th>
<th class="n11" data-th="В корзину"><span class="bt-content"><span>В корзину</span></span>
</th>
</tr>
</thead>
<tbody>
<tr>
<th data-th="Название"><span class="bt-content"><div class="card-choose0" data-kind-index="0">PAM-TS 12</div></span>
</th>
<td data-th="Раб. Объем, См³/об."><span class="bt-content"><div>12</div></span></td>
<td data-th="Макс. давление бар"><span class="bt-content"><div>380</div></span></td>
<td>Одинарное</td>
<td>3/8”</td>
<td data-th="Наличие"><span class="bt-content"><div>9</div></span></td>
<td data-th="Цена"><span class="bt-content"><div class="card-table-price">10 629 </div></span></td>
<td data-th="В корзину"><span class="bt-content"><div>
<script>
            var kind_info_924201={
    "ecommerce": {
        "add": {
            "products": [
                {
                    "id": "96401",
                    "name" : "Ручные насосы PAM-TS",
                    
                    "brand": "CONTARINI",
                    "variant" : "PAM-TS 12",
                    "price": 10629,
                }
                
            ]
        }
    }
};
        </script>
<form accept-charset="utf-8" action="/magazin?mode=cart&amp;action=add" method="post" onsubmit="shopClient.addItem(this,'c6792123ac07e33c205949508cdd776c','3000',this.kind_id.value,this.amount.value,this.elements.submit,replace_cart); yaCounter42710189.reachGoal('v_korzinu_01');kind_info_924201.ecommerce.add.products[0].quantity=1;dataLayer.push(kind_info_924201);return false;">
<input name="kind_id" type="hidden" value="924201">
<input name="product_id" type="hidden" value="96401">
<input name="meta" type="hidden" value='{"body_pdf":{"file_id":"277601","filename":"ruchnyye_nasosy_pam-ts_pam-tds.pdf"},"product_name2":"\u0420\u0443\u0447\u043d\u043e\u0439 \u043d\u0430\u0441\u043e\u0441","rab_obem":"12","maks_davlenie_bar_2":"380","dejstvie":"1528001","rezba_961":"921801"}'>
<input name="hash" type="hidden" value=""/>
<input name="ver_id" type="hidden" value="3000"/>
<input name="amount" type="hidden" value="1"/>
<a class="card-table__add-to-cart" href="pam-ts-12" onclick='$(this).closest("form").submit();shopClient.msg.show("Добавлено",$(this));return false;'></a>
</input></input></input></form>
</div></span></td>
</tr>
<tr>
<th data-th="Название"><span class="bt-content"><div class="card-choose0" data-kind-index="1">PAM-TS 25</div></span>
</th>
<td data-th="Раб. Объем, См³/об."><span class="bt-content"><div>25</div></span></td>
<td data-th="Макс. давление бар"><span class="bt-content"><div>350</div></span></td>
<td>Одинарное</td>
<td>3/8”</td>
<td data-th="Наличие"><span class="bt-content"><div>33</div></span></td>
<td data-th="Цена"><span class="bt-content"><div class="card-table-price">11 076 </div></span></td>
<td data-th="В корзину"><span class="bt-content"><div>
<script>
            var kind_info_924401={
    "ecommerce": {
        "add": {
            "products": [
                {
                    "id": "96401",
                    "name" : "Ручные насосы PAM-TS",
                    
                    "brand": "CONTARINI",
                    "variant" : "PAM-TS 25",
                    "price": 11076,
                }
                
            ]
        }
    }
};
        </script>
<form accept-charset="utf-8" action="/magazin?mode=cart&amp;action=add" method="post" onsubmit="shopClient.addItem(this,'c6792123ac07e33c205949508cdd776c','3000',this.kind_id.value,this.amount.value,this.elements.submit,replace_cart); yaCounter42710189.reachGoal('v_korzinu_01');kind_info_924401.ecommerce.add.products[0].quantity=1;dataLayer.push(kind_info_924401);return false;">
<input name="kind_id" type="hidden" value="924401"/>
<input name="product_id" type="hidden" value="96401"/>
<input name="meta" type="hidden" value='{"body_pdf":{"file_id":"277601","filename":"ruchnyye_nasosy_pam-ts_pam-tds.pdf"},"product_name2":"\u0420\u0443\u0447\u043d\u043e\u0439 \u043d\u0430\u0441\u043e\u0441","rab_obem":"12","maks_davlenie_bar_2":"380","dejstvie":"1528001","rezba_961":"921801"}'/>
<input name="hash" type="hidden" value=""/>
<input name="ver_id" type="hidden" value="3000"/>
<input name="amount" type="hidden" value="1"/>
<a class="card-table__add-to-cart" href="pam-ts-25" onclick='$(this).closest("form").submit();shopClient.msg.show("Добавлено",$(this));return false;'></a>
</form>
</div></span></td>
</tr>
<tr>
<th data-th="Название"><span class="bt-content"><div class="card-choose0" data-kind-index="2">PAM-TS 45</div></span>
</th>
<td data-th="Раб. Объем, См³/об."><span class="bt-content"><div>42</div></span></td>
<td data-th="Макс. давление бар"><span class="bt-content"><div>280</div></span></td>
<td>Одинарное</td>
<td>3/8”</td>
<td data-th="Наличие"><span class="bt-content"><div>2</div></span></td>
<td data-th="Цена"><span class="bt-content"><div class="card-table-price">11 372 </div></span></td>
<td data-th="В корзину"><span class="bt-content"><div>
<script>
            var kind_info_924601={
    "ecommerce": {
        "add": {
            "products": [
                {
                    "id": "96401",
                    "name" : "Ручные насосы PAM-TS",
                    
                    "brand": "CONTARINI",
                    "variant" : "PAM-TS 45",
                    "price": 11372,
                }
                
            ]
        }
    }
};
        </script>
<form accept-charset="utf-8" action="/magazin?mode=cart&amp;action=add" method="post" onsubmit="shopClient.addItem(this,'c6792123ac07e33c205949508cdd776c','3000',this.kind_id.value,this.amount.value,this.elements.submit,replace_cart); yaCounter42710189.reachGoal('v_korzinu_01');kind_info_924601.ecommerce.add.products[0].quantity=1;dataLayer.push(kind_info_924601);return false;">
<input name="kind_id" type="hidden" value="924601"/>
<input name="product_id" type="hidden" value="96401"/>
<input name="meta" type="hidden" value='{"body_pdf":{"file_id":"277601","filename":"ruchnyye_nasosy_pam-ts_pam-tds.pdf"},"product_name2":"\u0420\u0443\u0447\u043d\u043e\u0439 \u043d\u0430\u0441\u043e\u0441","rab_obem":"12","maks_davlenie_bar_2":"380","dejstvie":"1528001","rezba_961":"921801"}'/>
<input name="hash" type="hidden" value=""/>
<input name="ver_id" type="hidden" value="3000"/>
<input name="amount" type="hidden" value="1"/>
<a class="card-table__add-to-cart" href="pam-ts-45" onclick='$(this).closest("form").submit();shopClient.msg.show("Добавлено",$(this));return false;'></a>
</form>
</div></span></td>
</tr>
</tbody>
</table>

Я вытаскиваю эти таблицы и записываю каждую в отдельный файл с помощью такого парсера:
Кликните здесь для просмотра всего текста
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
import requests
import csv
from bs4 import BeautifulSoup
 
url = "http://ar-hydra.com/pam-ts-12" #всего около 800 ссылок берутся из файла
 
response = requests.get(url)
 
print(response.status_code)
 
html = response.text
 
multi_class = "site-wrap-in"
 
soup = BeautifulSoup(html, "html.parser")
 
product_name = soup.find_all("div", {"class":"site-wrap-in"})
 
all_products = []
for product in product_name:
    name = product.find("h1", {"class":"product-name-title"}).text
    vendor = soup.find('div', class_='card-box cls').find('a').text.replace('\n', '').replace(' ', '')
    table = product.find("table", {"class":"card-table"})
    all_products.append([name, vendor, table])
 
    with open(vendor + " " +name.replace('/', '-').replace('"', '-') + ".csv", "w+", encoding='utf-8') as f:
        writer = csv.writer(f, delimiter='\n')
        for product in all_products:
            writer.writerow(product)

Сам вопрос: Как исключить из парсинга столбцы "Наличие", "Цена", "В корзину" со всем их содержимым? Либо в уже спарсенных таблицах удалить эти столбцы?
Я искал, гуглил, но не нашел ответа. Надеюсь на помощь.
Заранее спасибо.
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
28.08.2020, 19:11
Ответы с готовыми решениями:

Как присвоить строке таблицы html определённые данные из базы данных?
Вобщем создаю таблицу html, заполняя её данными из бд: &lt;?php $servername = &quot;localhost&quot;; $username = &quot;root&quot;; ...

Не получается сохранить в БД определенные столбцы с таблицы (access)
данные из столбцов с ключем не сохраняются, выдает ошибку Дополнительные сведения: Невозможно добавление или изменение записи. Для...

Как исключить из копирования определенные файлы?
Привет, есть BAT-файл который с помощью команды xcopy делает бэкап из папки А в папку Б, можно ли реализовать так чтобы при добавлении...

12
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
28.08.2020, 20:43
Newageman, а вам прямо вся таблица нужна с html разметкой? Или всё-таки данные из это таблицы?
1
0 / 0 / 0
Регистрация: 05.08.2019
Сообщений: 24
28.08.2020, 21:14  [ТС]
а вам прямо вся таблица нужна с html разметкой? Или всё-таки данные из это таблицы?
Нужны таблицы с данными без трёх последних столбцов. Таблицы позже будут вставляться на перестроенном сайте, соответственно вносить данные в новые таблицы та ещё задача. Штука в том, что таблицы разные (количество и названия столбцов). Во всех таблицах есть только три общих столбца "Наличие", "Цена", "В корзину". Всего таких таблиц, на данный момент, около 800 штук и ещё прибавятся. Я пробовал руками эти столбцы удалять, но, как Вы можете понять, это не выход.
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
28.08.2020, 22:44
Лучший ответ Сообщение было отмечено Newageman как решение

Решение

Ну если уж вам нужна таблица со всей html разметкой вдобавок, то можно что-то в этом духе придумать:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
import requests
import csv
from bs4 import BeautifulSoup
import re
 
 
def clearing_table(table):
    raw_table = str(table).split('\n')
    new_table = []
    for data in raw_table:
        if not re.findall(r'наличие|цена|корзину', data.lower()):
            new_table.append(data)
    return '\n'.join(new_table)
 
 
url = "http://ar-hydra.com/pam-ts-12"  # всего около 800 ссылок берутся из файла
 
response = requests.get(url)
 
print(response.status_code)
 
html = response.text
 
multi_class = "site-wrap-in"
 
soup = BeautifulSoup(html, "html.parser")
 
product_name = soup.find_all("div", {"class": "site-wrap-in"})
 
all_products = []
for product in product_name:
    name = product.find("h1", {"class": "product-name-title"}).text
    vendor = soup.find('div', class_='card-box cls').find('a').text.replace('\n', '').replace(' ', '')
    table = product.find("table", {"class": "card-table"})
    clear_table = clearing_table(table)
    all_products.append([name, vendor, clear_table])
 
    with open(vendor + " " + name.replace('/', '-').replace('"', '-') + ".csv", "w+", encoding='utf-8') as f:
        writer = csv.writer(f, delimiter='\n')
        for product in all_products:
            writer.writerow(product)
1
0 / 0 / 0
Регистрация: 05.08.2019
Сообщений: 24
29.08.2020, 14:32  [ТС]
Цитата Сообщение от АмигоСП Посмотреть сообщение
Ну если уж вам нужна таблица со всей html разметкой вдобавок, то можно что-то в этом духе придумать:
Спасибо. Визуально работает, столбцов не видно, но остались неоткрытые теги </div></span></td> и внутренности <script>...</script>, <form>...</form>, <input>...</input>.

Добавлено через 3 часа 39 минут
АмигоСП, я решил вопрос с внутренностями в тегах. Теперь код выглядит так:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
import requests
import csv
from bs4 import BeautifulSoup
import re
filename = 'links.txt'
 
with open(filename, "r") as fp:
    lines = fp.readlines()
    for line in lines:
        print(line)
 
        websitelink = line.strip()
 
        response = requests.get(websitelink)
 
        print(response.status_code)
        html = response.text
        multi_class = "site-wrap-in"
        soup = BeautifulSoup(html, "html.parser")
 
 
        def clearing_table(table):
            raw_table = str(table).split('\n')
            new_table = []
            for data in raw_table:
                if not re.findall(r'наличие|цена|корзину', data.lower()):
                    new_table.append(data)
            return '\n'.join(new_table)
# Удаляем внутренности
        scripts_to_delete = soup.find_all('script')  
        if scripts_to_delete:
            for script in scripts_to_delete:
                script.extract()
            new_text = str(soup)
        else:
            print('Скриптов не найдено')
 
        forms_to_delete = soup.find_all('form') 
        if forms_to_delete:
            for form in forms_to_delete:
                form.extract()
            new_text = str(soup)
        else:
            print('Форм не найдено')
# Закончили удалять внутренности
 
        product_name = soup.find_all("div", {"class":"site-wrap-in"})
        all_products = []
        for product in product_name:
            name = product.find("h1", {"class":"product-name-title"}).text
            vendor = soup.find('div', class_='card-box cls').find('a').text
            table = product.find("table", {"class":"card-table"})
            clear_table = clearing_table(table)
            all_products.append([name, vendor, clear_table])
 
        with open(name.replace('/', '-').replace('"', '-') + ".csv", "w+", encoding='utf-8') as f:
            writer = csv.writer(f, delimiter='\n')
            for product in all_products:
                writer.writerow(product)
Спасибо Вам большое за помощь.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
29.08.2020, 16:48
Newageman,
Как же грустно не знать XPATH и lxml.
0
0 / 0 / 0
Регистрация: 05.08.2019
Сообщений: 24
29.08.2020, 19:58  [ТС]
Цитата Сообщение от Garry Galler Посмотреть сообщение
Newageman,
Как же грустно не знать XPATH и lxml.
Garry Galler, не спорю. Можете показать как с их помощью сделать?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
30.08.2020, 01:34
Цитата Сообщение от Newageman Посмотреть сообщение
Можете показать как с их помощью сделать?
Ссылку на сайт в студию.
0
0 / 0 / 0
Регистрация: 05.08.2019
Сообщений: 24
30.08.2020, 11:35  [ТС]
Garry Galler, пожалуйста. http://ar-hydra.com/pam-ts-12
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
30.08.2020, 16:33
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import requests
import lxml.html
from lxml.html import fromstring
from pprint import pprint
 
url = "http://ar-hydra.com/pam-ts-12"
 
resp = requests.get(url)
if resp.status_code == 200:
    page = resp.text
    root = fromstring(page)
    # # берем только первые 4 столбца в каждой строке таблицы
    table = root.xpath("""
    //table[@class='card-table responsive']
    //tr
    //td[position()<=4]
    //text()[normalize-space()]""")
    print(list(zip(*[iter(table)]* 4)))

Code
1
[('12', '380', 'Одинарное', '3/8”'), ('25', '350', 'Одинарное', '3/8”'), ('42', '280', 'Одинарное', '3/8”')]
P.S. Да, самый первый столбец, который "Название", сюда не попал, но так уж так по-дурацки сделали таблицу. Это можно исправить немного усложнив XPATH.

Добавлено через 1 час 0 минут
В общем пока есть вариант на два xpath (хотя, по уму их надо объединить, но синтаксис выбора между th и td у меня не получился):
Python
1
2
3
4
5
6
7
    table = root.xpath("""//table[@class='card-table responsive']//tr//td[position()<=4]//text()[normalize-space()]""")
    table2 = root.xpath("""//table[@class='card-table responsive']//tr//th//div//text()[normalize-space()]""")
    
    cols = list(zip(*[iter(table)]* 4))
    print(cols)  
    # объединяем                
    print([[val] + list(cols[i]) for i,val in enumerate(table2)])

Code
1
2
3
[('12', '380', 'Одинарное', '3/8”'), ('25', '350', 'Одинарное', '3/8”'), ('42', '280', 'Одинарное', '3/8”')]
 
[['PAM-TS 12', '12', '380', 'Одинарное', '3/8”'], ['PAM-TS 25', '25', '350', 'Одинарное', '3/8”'], ['PAM-TS 45', '42', '280', 'Одинарное', '3/8”']]
0
01.09.2020, 07:35

Не по теме:

Newageman, чуть бан не кинул из за названия сайта :D

0
0 / 0 / 0
Регистрация: 05.08.2019
Сообщений: 24
01.09.2020, 10:01  [ТС]
DmFat, извиняюсь. Но ведь меня попросили его предоставить. Я без какого-либо злого умысла адрес давал. Можно его как-то убрать из ответа и из кода?
0
01.09.2020, 10:14

Не по теме:

Newageman, все нормально, просто название похоже на другой электронный ресурс, который является нарушением.

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
01.09.2020, 10:14
Помогаю со студенческими работами здесь

Как исключить определенные страницы из редиректа
Доброе время суток не поможете советом? Суть проблемы: на сайте установлено пере направление RewriteCond %{REQUEST_FILENAME} !-f ...

Рандом: как исключить попадание в определенные значения?
Можно ли как то при получении рандомного числа функцией random.randrange(), исключить попадание в определенные значения?

Как исключить определенные числа из диапазона для функции rand()
Использую функцию rand для получения случайных значений в диапазоне от 1 до 52 int rcard=1+rand() % 52; А можно как то...

Как исключить определенные страницы, если в индексе include определенный файл
Здравствуйте. Такое дело. У меня включена фильтрация всех постом на сайте. Сама защита прописана в файле, и в индексе она подключена эта...

Столбцы в pivot - Исключить из результирующего множества столбцы MONTH и YEAR
есть запрос с pivot: select * from ( select 1 cnt, '55' name, 12 month, 2011 year, '12 2011' mnth_txt from dual union all ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
13
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru