Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.50/34: Рейтинг темы: голосов - 34, средняя оценка - 4.50
2 / 2 / 1
Регистрация: 13.09.2019
Сообщений: 134

Парсинг таблицы

03.05.2021, 23:22. Показов 7228. Ответов 15

Студворк — интернет-сервис помощи студентам
Добрый день.

Хочу спарсить результат запроса с сайта, не знаю как правильно спарсить тэги <td> получаю пустые значения.
Запрос выборки:
https://my2.soliq.uz/main/info... =302732321
Пытаюсь сделать, так но получаю пустые значения.

Данные ИНН:
302732321
301263843
207037496
207008279
303094482
206784234
207165425
204518334
381500638
205508204
301576714
371500680
200340206
37150755
205592009
371500637
371500705
895465478
371500774
11111112
200467806
502362745
484764332
40718QAA
302594652
302927290
40723QAA
504141204


Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
from openpyxl import load_workbook
from bs4 import BeautifulSoup
import urllib.request
 
wb = load_workbook('load.xlsx')
sheet = wb['TDSheet']
for row in sheet.iter_rows():
    if row[0].value != None and row[0].value != 'ИНН':
        search = 'https://my2.soliq.uz/main/info/personal?searchtin=' + str(row[0].value)
        #print(search)
        req = urllib.request.urlopen(search)
        html = req.read()
        soup = BeautifulSoup(html, 'html.parser')
        for link in soup.find_all("td"):
            print(link)
Хочу получить:
ИНН: 303094482
Юр. лицо: ООО "OSIYO VODIY KO'RKI "
Вид деятельности: Промышленность
Адрес: САДДАHILOL KO'CHASI, 94-UY
Дата регистрации: 19.11.2014
Номер регистрации: 2541
ОКПО: Хлебопекарная промышленность
СОАТО: Ташлакский район
ОПФ: Общество с ограниченной ответственностью
ОКЭД: Производство хлеба, свежих мучных кондитерских изделий, тортов и пирожных
СООГУ: Субъекты предпринимательства, не вошедшие в структуры органов государственного и хозяйственного управления
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
03.05.2021, 23:22
Ответы с готовыми решениями:

Python 3 парсинг таблицы
получил хтмл страницы: import urllib.request fp =...

Парсинг таблицы - два варианта, не могу разобраться
Задача - спарсить поисковые запросы с сервиса статистики liveinternet.ru/stat/ru/auto/queries.html Пытался сделать двумя методами ...

Парсинг таблицы pandas
Здравствуйте,пытаюсь получить таблицу с сайта.Но она искажается при получении(Дублируются первые 3 столбца), таблица смещается и создает...

15
4 / 3 / 1
Регистрация: 07.05.2020
Сообщений: 75
05.05.2021, 09:38
Это может быть динамический подгружаемый сайт, где данные о иин хранятся в другом месте. И только после нажатия они подгружаются на сайт. Я обошел это с помощью Selenium Webdriver
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
05.05.2021, 10:01
Лучший ответ Сообщение было отмечено Welemir1 как решение

Решение

Exle, что же никто не любит то в браузере поковыряться)) делов ведь на 30 секунд. Вот сюда шлёте запрос и получаете джсон с кучей данных, включая те, которые нужны:
Python
1
2
3
4
5
6
import requests
 
url = 'https://my2.soliq.uz/main/info/personal/data?tin=303094482'
response = requests.get(url)
values = response.json()
print(values)
2
05.05.2021, 10:03

Не по теме:

АмигоСП, так это надо сидеть, думать, разбираться, а на форум черкнул и готово!

0
2 / 2 / 1
Регистрация: 13.09.2019
Сообщений: 134
06.05.2021, 02:05  [ТС]
Python
1
2
3
4
5
6
import requests
 
url = 'https://my2.soliq.uz/main/info/personal/data?tin=303094482'
response = requests.get(url)
values = response.json()
print(values)
f12 вижу такой JSON:
JSON
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
{success: true, reason: null,}
data: {tin: "301263843", ns10Code: 26, ns10Name: "город Ташкент", ns11Code: 8, ns11Name: "Яшнабадский район",}
account: "20208000804791273001"
address: "AXSIKAT KO`CHASI, 176-UY"
dateTin: "1247684400000"
fund: 428743000
gbFullName: "ДЕЛИШЕВ РОМАН РАФАИЛЬЕВИЧ"
gbTelHome: "97-1552858"
gbTelWork: "78-1273858"
gbTin: "438703682"
gdFullName: "ДЕЛИШЕВ РОМАН РАФАИЛЬЕВИЧ"
gdTelHome: null
gdTelWork: "78-1273858"
gdTin: "438703682"
na1Code: 4
na1Name: "Частное предприятие"
name: "ЧП \"MONOHROM\""
nameFull: "ЧАСТНОЕ ПРЕДПРИЯТИЕ \"MONOHROM\""
nc1Code: "79994"
nc1Name: "Субъекты предпринимательства, не вошедшие в структуры органов государственного и хозяйственного управления"
nc2Code: "71150"
nc2Name: "Прочая оптовая торговля"
nc3Code: "100"
nc3Name: "Частная собственность"
nc4Code: "110"
nc4Name: "Частное предприятие"
nc5Code: "1726290"
nc5Name: "Яшнаабадский район"
nc6Code: "95110"
nc6Name: "Ремонт компьютеров и периферийного оборудования"
ns1Code: 3
ns1Name: "Торговля"
ns2Code: "00974"
ns2Name: "ТОШКЕНТ Ш., \"КАПИТАЛБАНК\" АТ БАНКИНИНГ АМАЛИЁТ БОШКАРМАСИ"
ns3Code: 469
ns3Name: "Субъекты предпринимательства, не вошедшие в структуры органов государственного и хозяйственного управления"
ns4Code: 2
ns4Name: "Смешанная"
ns10Code: 26
ns10Name: "город Ташкент"
ns11Code: 8
ns11Name: "Яшнабадский район"
ns13Code: 0
ns13Name: "Действующии и имеющии налоговое объезятельство"
regDate: "18.03.2015"
regNum: "003999-03"
stateCode: 0
stateName: "Действующие и имеющие налоговые обязательства"
tin: "301263843"
reason: null
success: true
как напечатать значение name: "ЧП "MONOHROM""

Добавлено через 2 минуты
так печатает только data:
{'success': True, 'reason': None, 'data': {'tin': '303094482', 'ns10Code': 30, 'ns10Name': 'Ферганская область', 'ns11Code': 16, 'ns11Name': 'Ташлакский район', 'name': 'ООО "OSIYO VODIY KO\'RKI "', 'nameFull': 'ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "OSIYO VODIY KO\'RKI "', 'address': "САДДАHILOL KO'CHASI, 94-UY", 'regNum': '2541', 'regDate': '19.11.2014', 'fund': 2500000, 'gdFullName': 'РУСТАМОВ БАХТИЕР АКБАРОВИЧ', 'gdTin': '453981499', 'gdTelWork': '905322030', 'gdTelHome': None, 'gbFullName': 'НЕ ПPЕДУСМОТPЕН', 'gbTin': None, 'gbTelWork': None, 'gbTelHome': None, 'nc1Code': '79994', 'nc1Name': 'Субъекты предпринимательства, не вошедшие в структуры органов государственного и хозяйственного управления', 'nc2Code': '18113', 'nc2Name': 'Хлебопекарная промышленность', 'nc3Code': '100', 'nc3Name': 'Частная собственность', 'nc4Code': '152', 'nc4Name': 'Общество с ограниченной ответственностью', 'nc5Code': '1730227', 'nc5Name': 'Ташлакский район', 'nc6Code': '10710', 'nc6Name': 'Производство хлеба, свежих мучных кондитерских изделий, тортов и пирожных', 'ns1Code': 1, 'ns1Name': 'Промышленность', 'ns2Code': '00965', 'ns2Name': 'ФАРГОНА Ш., ЧЕТ ЭЛ КАПИТАЛИ ИШТИРОКИДАГИ "HAMKORBANK" АТБ ИСТИКБОЛ ФИЛИАЛИ', 'ns3Code': 469, 'ns3Name': 'Субъекты предпринимательства, не вошедшие в структуры органов государственного и хозяйственного управления', 'ns4Code': 5, 'ns4Name': 'Частная', 'ns13Code': 0, 'ns13Name': 'Действующии и имеющии налоговое объезятельство', 'na1Code': 12, 'na1Name': 'Общество с огр. ответствен.', 'account': '20208000900404019001', 'dateTin': '1416395162000', 'stateCode': 0, 'stateName': 'Действующие и имеющие налоговые обязательства'}}

Добавлено через 1 минуту
если data: раскрыть руками то получаю остальные переменные, но в JSON они не попадают.

Добавлено через 54 секунды
Почему так происходит?
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
06.05.2021, 07:49
Цитата Сообщение от Exle Посмотреть сообщение
Почему так происходит?
Потому что основы питона не знаете. Это же обычный джсон. Никакой магии
Python
1
print(values['data']['name'])
1
2 / 2 / 1
Регистрация: 13.09.2019
Сообщений: 134
06.05.2021, 08:41  [ТС]
Да, только внимательно смотрите.
data: {tin: "301263843", ns10Code: 26, ns10Name: "город Ташкент", ns11Code: 8, ns11Name: "Яшнабадский район",…}
в data есть такое поле, но оно выводит 'name': 'ООО "OSIYO VODIY KO\'RKI "', а мне надо значение под data, выделил цветом

account: "20208000804791273001"
address: "AXSIKAT KO`CHASI, 176-UY"
dateTin: "1247684400000"
fund: 428743000
gbFullName: "ДЕЛИШЕВ РОМАН РАФАИЛЬЕВИЧ"
gbTelHome: "97-1552858"
gbTelWork: "78-1273858"
gbTin: "438703682"
gdFullName: "ДЕЛИШЕВ РОМАН РАФАИЛЬЕВИЧ"
gdTelHome: null
gdTelWork: "78-1273858"
gdTin: "438703682"
na1Code: 4
na1Name: "Частное предприятие"
name: "ЧП "MONOHROM""

Добавлено через 47 секунд
если писать так, то будет ошибка:
print(values['account'])
KeyError: 'account'
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
06.05.2021, 10:19
Цитата Сообщение от Exle Посмотреть сообщение
Да, только внимательно смотрите.
На что мне внимательно смотреть? На то, что вы по прежнему не знаете как работать с json/dict в питоне?
Цитата Сообщение от Exle Посмотреть сообщение
а мне надо значение под data, выделил цветом
я уже написал в предыдущем посте как получить значение ключа "name"
1
2 / 2 / 1
Регистрация: 13.09.2019
Сообщений: 134
06.05.2021, 10:41  [ТС]
Если я печатаю, print(values['data']['name']), я и спрашиваю почему так и как нужно верно записать в данном случаи?
у меня выдает:
ООО "OSIYO VODIY KO'RKI "
а нужно:
name: "ЧП "MONOHROM""
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
06.05.2021, 11:13
Цитата Сообщение от Exle Посмотреть сообщение
у меня выдает:
ООО "OSIYO VODIY KO'RKI "
а нужно:
name: "ЧП "MONOHROM""

А сами то как думаете? Повнимательнее посмотрите на строку запроса в реквесте.
0
2 / 2 / 1
Регистрация: 13.09.2019
Сообщений: 134
06.05.2021, 14:11  [ТС]
а как подгружаются эти данные?
https://my2.soliq.uz/main/info... =302732321
Python
1
2
3
4
5
Не является плательщиком НДС
Не является должником
Не банкрот
PLANER TRADE МЧЖ
Юридическое лицо
0
2 / 2 / 1
Регистрация: 13.09.2019
Сообщений: 134
06.05.2021, 23:53  [ТС]
Сделал так:
Результат:
HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
301263843
ЧП "MONOHROM"
Юридическое лицо
Не является плательщиком НДС
Не является должником
Не банкрот
Торговля
AXSIKAT KO`CHASI, 176-UY
18.03.2015
003999-03
Прочая оптовая торговля
Яшнаабадский район
Частное предприятие
Ремонт компьютеров и периферийного оборудования
Субъекты предпринимательства, не вошедшие в структуры органов государственного и хозяйственного управления
Добавлено через 1 час 2 минуты

Добавлено через 1 минуту
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
from selenium import webdriver  # $ pip install selenium
from bs4 import BeautifulSoup
from openpyxl import load_workbook
 
wb = load_workbook('load.xlsx')
sheet = wb['TDSheet']
for row in sheet.iter_rows():
    if row[0].value != None and row[0].value != 'ИНН':
        search = 'https://my2.soliq.uz/main/info/personal?searchtin=' + str(row[0].value)
        options = webdriver.ChromeOptions()
        options.add_argument('--headless')
        driver = webdriver.Chrome(executable_path=r'C:\my_work_test11\chromedriver.exe',options=options)
        driver.get(search)
        generated_html = driver.page_source
        driver.quit()
        soup = BeautifulSoup(generated_html, 'html.parser')
        inn = soup.find('h5', class_='ff-helvetica_bold')
        name = soup.find('h4', class_='mb-0 ff-helvetica_light')
        law = soup.find('div', id='nameinfo').find('p', class_='ff-helvetica_light')
        tax = soup.find('span', id='ndsStatus', class_='ff-helvetica_medium')
        debtor = soup.find('span', id='debtorStatus', class_='ff-helvetica_medium')
        bankrot = soup.find('span', id='bankrotStatus', class_='ff-helvetica_medium')
        data = [x.get_text() for x in soup.find_all('td')]
        with open('result.txt', 'a') as f:
            print(inn.text.replace('ИНН:  ', ''), name.text, law.text, tax.text, debtor.text, bankrot.text, data[0],data[1], data[2],data[3], data[4], data[5], data[6], data[7], data[8], data[9],sep='\n', file=f)
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
07.05.2021, 06:05
Цитата Сообщение от Exle Посмотреть сообщение
from selenium import webdriver  # $ pip install selenium
from bs4 import BeautifulSoup
садись, два! Селениум самодостаточен, он умеет парсить и доставать любые данные из страниц лучше любого БьютифулСупа, когда используешь их в паре -сразу понятно что не понимаешь их назначения.

С жсонами то так и не удалось разобраться?)
1
2 / 2 / 1
Регистрация: 13.09.2019
Сообщений: 134
07.05.2021, 08:16  [ТС]
Json разобрался. На странице мне нужные еще эти данные, поэтому не стал с Json заморачиваться.
Я выбрал selenium, тк. много динамических данных.
Юридическое лицо
Не является плательщиком НДС
Не является должником
Не банкрот
Можно на примере как, парсить с помощью selenium
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
07.05.2021, 09:59
Цитата Сообщение от Exle Посмотреть сообщение
Можно на примере как, парсить с помощью selenium
конечно, не жалко https://selenium-python.readthedocs.io/
2
2 / 2 / 1
Регистрация: 13.09.2019
Сообщений: 134
07.05.2021, 14:09  [ТС]
Ребята, может вопрос дурацкий, не совсем понимаю, почему так.
Пытаюсь, теперь весь вывод сохранить в Excel, но получаю только одну запись
хотя если, печатать через print вижу в терминале все записи.
Нужен ли здесь отдельный цикл для списка load_list? И если не сложно покажите как лучше напечатать а то что-то коряво у меня.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
import openpyxl
from selenium import webdriver  # $ pip install selenium
from bs4 import BeautifulSoup
from openpyxl import load_workbook, Workbook
 
wb = load_workbook('load.xlsx')
sheet = wb['TDSheet']
for row in sheet.iter_rows():
    if row[0].value != None and row[0].value != 'ИНН':
        search = 'https://my2.soliq.uz/main/info/personal?searchtin=' + str(row[0].value)
        options = webdriver.ChromeOptions()
        options.add_argument('--headless')
        driver = webdriver.Chrome(executable_path=r'C:\Users\Oleg\Desktop\my_work_test11\chromedriver.exe',options=options)
        driver.get(search)
        generated_html = driver.page_source
        driver.quit()
        soup = BeautifulSoup(generated_html, 'html.parser')
        inn = soup.find('h5', class_='ff-helvetica_bold')
        name = soup.find('h4', class_='mb-0 ff-helvetica_light')
        law = soup.find('div', id='nameinfo').find('p', class_='ff-helvetica_light')
        tax = soup.find('span', id='ndsStatus', class_='ff-helvetica_medium')
        debtor = soup.find('span', id='debtorStatus', class_='ff-helvetica_medium')
        bankrot = soup.find('span', id='bankrotStatus', class_='ff-helvetica_medium')
        data = [x.get_text() for x in soup.find_all('td')]
        load_list = [inn.text.replace('ИНН:  ', ''), name.text, law.text, tax.text, debtor.text, bankrot.text, data[0],data[1], data[2], data[3], data[4], data[5], data[6], data[7], data[8], data[9]]
        #print(load_list)
 
        book = openpyxl.Workbook()
 
        sheet = book.active
 
        sheet['A1'] = 'ИНН'
        sheet['B1'] = 'Наименование'
        sheet['C1'] = 'ЮЛ'
        sheet['D1'] = 'НДС'
        sheet['E1'] = 'Является ли должником'
        sheet['F1'] = 'Является ли банкротом'
        sheet['G1'] = 'Вид деятельности:'
        sheet['H1'] = 'Адрес:'
        sheet['I1'] = 'Дата регистрации:'
        sheet['J1'] = 'Номер регистрации:'
        sheet['K1'] = 'ОКПО:'
        sheet['L1'] = 'СОАТО:'
        sheet['M1'] = 'ОПФ:'
        sheet['N1'] = 'ОКЭД:'
        sheet['O1'] = 'СООГУ:'
 
        row = 2
 
        sheet[row][0].value = load_list[0]
        sheet[row][1].value = load_list[1]
        sheet[row][2].value = load_list[2]
        sheet[row][3].value = load_list[3]
        sheet[row][4].value = load_list[4]
        sheet[row][5].value = load_list[5]
        sheet[row][6].value = load_list[6]
        sheet[row][7].value = load_list[7]
        sheet[row][8].value = load_list[8]
        sheet[row][9].value = load_list[9]
        sheet[row][10].value = load_list[10]
        sheet[row][11].value = load_list[11]
        sheet[row][12].value = load_list[12]
        sheet[row][13].value = load_list[13]
        sheet[row][14].value = load_list[14]
 
        row += 1
 
 
        book.save('result.xlsx')
        book.close
Добавлено через 4 часа 1 минуту
Пишет в строки но все время одно и то же последнею запись:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
import openpyxl
from selenium import webdriver
from bs4 import BeautifulSoup
from openpyxl import load_workbook, Workbook
 
wb = load_workbook('load.xlsx')
sheet = wb['TDSheet']
for row in sheet.iter_rows():
    if row[0].value != None and row[0].value != 'ИНН':
        search = 'https://my2.soliq.uz/main/info/personal?searchtin=' + str(row[0].value)
        options = webdriver.ChromeOptions()
        options.add_argument('--headless')
        driver = webdriver.Chrome(executable_path=r'C:\Users\Oleg\Desktop\my_work_test11\chromedriver.exe',options=options)
        driver.get(search)
        generated_html = driver.page_source
        driver.quit()
        soup = BeautifulSoup(generated_html, 'html.parser')
        inn = soup.find('h5', class_='ff-helvetica_bold')
        name = soup.find('h4', class_='mb-0 ff-helvetica_light')
        law = soup.find('div', id='nameinfo').find('p', class_='ff-helvetica_light')
        tax = soup.find('span', id='ndsStatus', class_='ff-helvetica_medium')
        debtor = soup.find('span', id='debtorStatus', class_='ff-helvetica_medium')
        bankrot = soup.find('span', id='bankrotStatus', class_='ff-helvetica_medium')
        data = [x.get_text() for x in soup.find_all('td')]
        load_list = [inn.text.replace('ИНН:  ', ''), name.text, law.text, tax.text, debtor.text, bankrot.text, data[0],data[1], data[2], data[3], data[4], data[5], data[6], data[7], data[8], data[9]]
 
        book = openpyxl.Workbook()
        sheet = book.active
 
        sheet['A1'] = 'ИНН'
        sheet['B1'] = 'Наименование'
        sheet['C1'] = 'ЮЛ'
        sheet['D1'] = 'НДС'
        sheet['E1'] = 'Является ли должником'
        sheet['F1'] = 'Является ли банкротом'
        sheet['G1'] = 'Вид деятельности:'
        sheet['H1'] = 'Адрес:'
        sheet['I1'] = 'Дата регистрации:'
        sheet['J1'] = 'Номер регистрации:'
        sheet['K1'] = 'ОКПО:'
        sheet['L1'] = 'СОАТО:'
        sheet['M1'] = 'ОПФ:'
        sheet['N1'] = 'ОКЭД:'
        sheet['O1'] = 'СООГУ:'
 
        row = 2
        for p in range(1, len(load_list) + 1):
            for m in load_list:
                sheet[row][0].value = load_list[0]
                sheet[row][1].value = load_list[1]
                sheet[row][2].value = load_list[2]
                sheet[row][3].value = load_list[3]
                sheet[row][4].value = load_list[4]
                sheet[row][5].value = load_list[5]
                sheet[row][6].value = load_list[6]
                sheet[row][7].value = load_list[7]
                sheet[row][8].value = load_list[8]
                sheet[row][9].value = load_list[9]
                sheet[row][10].value = load_list[10]
                sheet[row][11].value = load_list[11]
                sheet[row][12].value = load_list[12]
                sheet[row][13].value = load_list[13]
                sheet[row][14].value = load_list[14]
 
            row = row + 1
 
 
book.save('result.xlsx')
book.close
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
07.05.2021, 14:09
Помогаю со студенческими работами здесь

Парсинг таблицы с нескольких страниц
Доброго времени суток. Есть задача: с внутреннего сайта организации выгрузить таблицу. Сайт выглядет: - в начале 3 фильтра с...

Python парсинг, извлечение данных из таблицы
Здравствуйте, всем. Изучаю парсинг сайтов на практике с помощью BeautifulSoup. Допустим нашли блок с нужными тэгами, как извлечь...

[Py2.7] Парсинг сайта с экспортом конкретной таблицы в Excel-файл
Здравствуйте. В университете мне дали 2 задания по парсингу: сайта и документа Word. Про парсинг сайта на Python я смотрела видео на...

Парсинг по порядку или парсинг до определенного тега
Доброго времени друзья! Подскажите пожалуйста, к примеру есть вот такой html код: &lt;div class=&quot;container mt-3&quot;&gt; ...

Парсинг таблицы
Всем привет, парсил сайт способом strpos, substr. Вытащил из него таблицу &lt;tr bgcolor=#f0f0f0...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
16
Ответ Создать тему
Новые блоги и статьи
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США. Нашел на реддите интересную статью под названием «Кто-нибудь знает, где получить бесплатный компьютер или. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru