Форум программистов, компьютерный форум, киберфорум
Python: Научные вычисления
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.85/13: Рейтинг темы: голосов - 13, средняя оценка - 4.85
0 / 0 / 0
Регистрация: 16.06.2012
Сообщений: 56

Чтение XML в Pandas Dataframe

18.08.2023, 17:49. Показов 2879. Ответов 8

Студворк — интернет-сервис помощи студентам
Добрый день.
Имеется файл расширения *.xml, предназначенный для открытия в excel (или подобном), следующего вида:
Кликните здесь для просмотра всего текста
XML
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<?mso-application progid="Excel.Sheet"?>
<Workbook xmlns="urn:schemas-microsoft-com:office:spreadsheet"
xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:x="urn:schemas-microsoft-com:office:excel"
xmlns:ss="urn:schemas-microsoft-com:office:spreadsheet"
xmlns:html="http://www.w3.org/TR/REC-html40">
<Styles>
<Style ss:ID="ce0"><NumberFormat ss:Format="0"/></Style>
<Style ss:ID="ce1"><NumberFormat ss:Format="0.0"/></Style>
<Style ss:ID="ce2"><NumberFormat ss:Format="0.00"/></Style>
<Style ss:ID="ce3"><NumberFormat ss:Format="0.000"/></Style>
<Style ss:ID="ce4"><NumberFormat ss:Format="0.0000"/></Style>
<Style ss:ID="ce5"><NumberFormat ss:Format="0.00000"/></Style>
<Style ss:ID="ce6"><NumberFormat ss:Format="0.000000"/></Style>
<Style ss:ID="ce7"><NumberFormat ss:Format="0.0000000"/></Style>
<Style ss:ID="ce8"><NumberFormat ss:Format="0.00000000"/></Style>
<Style ss:ID="ce11"><NumberFormat ss:Format="Fixed"/></Style>
<Style ss:ID="ce12"><NumberFormat ss:Format="General Date"/></Style>
<Style ss:ID="ce13"><NumberFormat ss:Format="0.00000"/></Style>
</Styles>
<Worksheet ss:Name="Optimizator Results">
<Table>
<Row>
<Cell><Data ss:Type="String">1</Data></Cell>
<Cell><Data ss:Type="String">2</Data></Cell>
<Cell><Data ss:Type="String">3</Data></Cell>
<Cell><Data ss:Type="String">4</Data></Cell>
<Cell><Data ss:Type="String">5</Data></Cell>
<Cell><Data ss:Type="String">6</Data></Cell>
<Cell><Data ss:Type="String">7</Data></Cell>
<Cell><Data ss:Type="String">8</Data></Cell>
<Cell><Data ss:Type="String">9</Data></Cell>
<Cell><Data ss:Type="String">10</Data></Cell>
<Cell><Data ss:Type="String">11</Data></Cell>
<Cell><Data ss:Type="String">12</Data></Cell>
<Cell><Data ss:Type="String">13</Data></Cell>
<Cell><Data ss:Type="String">14</Data></Cell>
<Cell><Data ss:Type="String">15</Data></Cell>
</Row>
<Row>
<Cell><Data ss:Type="Number">4364</Data></Cell>
<Cell ss:StyleID="ce2"><Data ss:Type="Number">0.65</Data></Cell>
<Cell ss:StyleID="ce2"><Data ss:Type="Number">80396.00</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">51.868387</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">1.255384</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">4.222036</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">1.536879</Data></Cell>
<Cell><Data ss:Type="Number">0.65232756164076755</Data></Cell>
<Cell ss:StyleID="ce11"><Data ss:Type="Number">1.8482</Data></Cell>
<Cell><Data ss:Type="Number">1550</Data></Cell>
<Cell><Data ss:Type="Number">-1.28</Data></Cell>
<Cell><Data ss:Type="Number">12</Data></Cell>
<Cell><Data ss:Type="Number">14</Data></Cell>
<Cell><Data ss:Type="Number">770</Data></Cell>
<Cell><Data ss:Type="Number">-0.91</Data></Cell>
</Row>
<Row>
<Cell><Data ss:Type="Number">1336</Data></Cell>
<Cell ss:StyleID="ce2"><Data ss:Type="Number">0.73</Data></Cell>
<Cell ss:StyleID="ce2"><Data ss:Type="Number">79202.00</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">60.971517</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">1.315341</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">2.738753</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">1.903100</Data></Cell>
<Cell><Data ss:Type="Number">0.7278135720863973</Data></Cell>
<Cell ss:StyleID="ce11"><Data ss:Type="Number">2.6878</Data></Cell>
<Cell><Data ss:Type="Number">1299</Data></Cell>
<Cell><Data ss:Type="Number">0.07</Data></Cell>
<Cell><Data ss:Type="Number">13</Data></Cell>
<Cell><Data ss:Type="Number">16</Data></Cell>
<Cell><Data ss:Type="Number">637</Data></Cell>
<Cell><Data ss:Type="Number">-1.57</Data></Cell>
</Row>

Мне хотелось бы его считать как классическую таблицу, чтобы заниматься сортировкой, обработкой результатов. Пересохранение в csv и открытие с помощью pd.read_csv работает прекрасно, но хотелось бы избавиться от открытия и пересохранения каждого файла. Поэтому попробовал следующее:
Python
1
df = pd.read_xml('example2.xml')
Не сработало. С xml толком не знаком, может мешают стили, форматирование? Может что то из файла убрать надо, чтобы такой конструкцией удалось воспользоваться (pd.read_xml...)
Если требуется - приложу полный файл. Но в целом я скопировал под спойлер код xml, содержащий заголовки и две строки таблицы. Далее - однообразно. И закрывающие скобки в конце.
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
18.08.2023, 17:49
Ответы с готовыми решениями:

Оптимизировать функцию заполнения столбца dataframe pandas
Доброго времени суток. У меня есть функция, которая заполняет столбец second_event_time, для каждого пользователя отдельно, значением...

Pandas dataframe
Доброго дня форумчане. Возник следующий вопрос. Есть у меня таблица, которую необходимо &quot;перевернуть&quot;. Так dataframe...

Pandas Dataframe
я импортирую фрейм данных из excel. Столбец 1 установлен как индекс. Я хочу проверить в индекс (Столбец 1) пустой ячейке с помощью цикла...

8
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,761
19.08.2023, 04:45
Лучший ответ Сообщение было отмечено Xpert1993 как решение

Решение

типа так
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
import pandas as pd
import xml.parsers.expat
 
class Parser():
    def __init__(self,fname):
        self.fname = fname
        self.tag = ''
        self.out = []
        self.p = xml.parsers.expat.ParserCreate()
        self.p.StartElementHandler = self.start_element
        self.p.EndElementHandler = self.end_element
        self.p.CharacterDataHandler = self.char_data
    
    def start_element(self,name, attrs):
        self.tag = name
        if name == 'Row':
            self.out.append([])
        #print(name,attrs)
    def end_element(self,name):
        pass
    
    def char_data(self,data):
        t = data.strip()
        if t and self.tag == 'Data':
            self.out[-1].append(t)
    
    def read(self):
        with open(self.fname) as f:
            self.p.Parse(f.read())
        return self.out
 
p = Parser('data.xml')
df = pd.DataFrame(p.read())
print(df)
1
0 / 0 / 0
Регистрация: 16.06.2012
Сообщений: 56
19.08.2023, 14:45  [ТС]
Спасибо большое, всё отлично.
0
Любознательный
 Аватар для YuS_2
7404 / 2249 / 360
Регистрация: 10.03.2016
Сообщений: 5,196
22.08.2023, 12:39
Цитата Сообщение от Xpert1993 Посмотреть сообщение
Но в целом я скопировал под спойлер код xml, содержащий заголовки и две строки таблицы. Далее - однообразно. И закрывающие скобки в конце.
Закрывающих тегов не хватает... xml не валидный...
Если поизучать документацию на pandas, то можно обнаружить, что с подобной структурой, надо работать примерно так:
Python
1
2
3
import pandas as pd
df = pd.read_xml("test.xml", xpath=".//pandas:Cell", namespaces={"pandas": "urn:schemas-microsoft-com:office:spreadsheet"})
print(df)
1
0 / 0 / 0
Регистрация: 16.06.2012
Сообщений: 56
22.08.2023, 14:24  [ТС]
YuS_2,
Спасибо за ответ.
Да, xml не полный и без закрывающих тегов, я сказал об этом в первом сообщении. Сам файл большого объёма, приведена лишь та его область, где начинается повторяющаяся часть.
Посмотрю Ваш вариант, решение одной строкой стандартным модулем Pandas для меня бы приятнее.
0
Любознательный
 Аватар для YuS_2
7404 / 2249 / 360
Регистрация: 10.03.2016
Сообщений: 5,196
22.08.2023, 14:48
Цитата Сообщение от Xpert1993 Посмотреть сообщение
решение одной строкой стандартным модулем Pandas для меня бы приятнее
это не совсем решение, пока... скорее, пример чтения xml файла...
Но то, что требуется Вам, таким способом не получить. В Вашем файле нет уникальных наименований-тегов для столбцов, поэтому чтобы получить то, что требуется, необходимо ещё поработать над кодом...

Добавлено через 3 минуты
а вообще, у pandas есть варианты, например, можно и так:
Python
1
2
3
import pandas as pd
df = pd.read_xml("test.xml",  iterparse = {"Cell": ["Data"]})
print(df)
- но это также будет сплошной набор ячеек, без деления на строки...

ссылка на документацию
0
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,761
22.08.2023, 18:04
Цитата Сообщение от Xpert1993 Посмотреть сообщение
решение одной строкой стандартным модулем Pandas для меня бы приятнее
pandas те же самые парсеры использует, не так уж их много
expat -самый простой, может невалидные файлы обрабатывать
0
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,761
24.08.2023, 16:21
Цитата Сообщение от YuS_2 Посмотреть сообщение
но это также будет сплошной набор ячеек, без деления на строки...
pandas lxml использует, можно проще
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
from lxml import etree
import pandas as pd
 
def lxml_parse(fname, row, col):
    out = []
    tree = etree.iterparse(fname,events=['start'])
    for event,elem in tree :
        name = etree.QName(elem.tag).localname
        if row == name: out.append([])
        if col == name: out[-1].append(elem.text)
    return out
 
df = pd.DataFrame(lxml_parse('data2.xml','Row','Data'))
print(df)
1
Любознательный
 Аватар для YuS_2
7404 / 2249 / 360
Регистрация: 10.03.2016
Сообщений: 5,196
25.08.2023, 08:50
Цитата Сообщение от vic5710 Посмотреть сообщение
можно проще
Возможно, но как по мне, то проще, как раз, получить одноуровневый список с ячейками и затем разбить его на строки (по количеству элементов Row) или пройтись по дереву парсером и повыдергивать ячейки так, как требуется... в общем, вариантов больше, чем один...
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
25.08.2023, 08:50
Помогаю со студенческими работами здесь

Dataframe pandas
Всем привет! Есть dataframe книги. Автор1 книга 1 Автор 2 книга 2 Автор 1 книга 3 Как можно сформировать xml файл с...

Выборка в DataFrame Pandas
Подскажите пожалуйста с задачей, не выходит сделать выборку, как в задании в DataFrame Pandas. 1.Оставьте в выборке только те...

Pandas: DataFrame to TEXT
Привет. У меня в БД (postgres) в одном из атрибутов таблицы хранятся данные типа TEXT. Есть некий csv файл, который я читаю и преобразую...

Pandas. Объединить DataFrame
Приветствую всех! Коллеги, подскажите. Я спарсил xml файл с помощью xmltodict. Получил два датафрейма (пришлось делать два из-за...

Объединение dataframe в pandas
Всем привет! Есть два dataframe pandas с идентичной структурой (ФИО, ДР), необходимо из второго dataframe обновить первый dataframe.Если...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru