Чтение XML в Pandas Dataframe

@Xpert1993 · Регистрация: 16.06.2012

Студворк — интернет-сервис помощи студентам

Добрый день.
Имеется файл расширения *.xml, предназначенный для открытия в excel (или подобном), следующего вида:

Кликните здесь для просмотра всего текста

XML
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<?mso-application progid="Excel.Sheet"?>
<Workbook xmlns="urn:schemas-microsoft-com:office:spreadsheet"
xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:x="urn:schemas-microsoft-com:office:excel"
xmlns:ss="urn:schemas-microsoft-com:office:spreadsheet"
xmlns:html="http://www.w3.org/TR/REC-html40">
<Styles>
<Style ss:ID="ce0"><NumberFormat ss:Format="0"/></Style>
<Style ss:ID="ce1"><NumberFormat ss:Format="0.0"/></Style>
<Style ss:ID="ce2"><NumberFormat ss:Format="0.00"/></Style>
<Style ss:ID="ce3"><NumberFormat ss:Format="0.000"/></Style>
<Style ss:ID="ce4"><NumberFormat ss:Format="0.0000"/></Style>
<Style ss:ID="ce5"><NumberFormat ss:Format="0.00000"/></Style>
<Style ss:ID="ce6"><NumberFormat ss:Format="0.000000"/></Style>
<Style ss:ID="ce7"><NumberFormat ss:Format="0.0000000"/></Style>
<Style ss:ID="ce8"><NumberFormat ss:Format="0.00000000"/></Style>
<Style ss:ID="ce11"><NumberFormat ss:Format="Fixed"/></Style>
<Style ss:ID="ce12"><NumberFormat ss:Format="General Date"/></Style>
<Style ss:ID="ce13"><NumberFormat ss:Format="0.00000"/></Style>
</Styles>
<Worksheet ss:Name="Optimizator Results">
<Table>
<Row>
<Cell><Data ss:Type="String">1</Data></Cell>
<Cell><Data ss:Type="String">2</Data></Cell>
<Cell><Data ss:Type="String">3</Data></Cell>
<Cell><Data ss:Type="String">4</Data></Cell>
<Cell><Data ss:Type="String">5</Data></Cell>
<Cell><Data ss:Type="String">6</Data></Cell>
<Cell><Data ss:Type="String">7</Data></Cell>
<Cell><Data ss:Type="String">8</Data></Cell>
<Cell><Data ss:Type="String">9</Data></Cell>
<Cell><Data ss:Type="String">10</Data></Cell>
<Cell><Data ss:Type="String">11</Data></Cell>
<Cell><Data ss:Type="String">12</Data></Cell>
<Cell><Data ss:Type="String">13</Data></Cell>
<Cell><Data ss:Type="String">14</Data></Cell>
<Cell><Data ss:Type="String">15</Data></Cell>
</Row>
<Row>
<Cell><Data ss:Type="Number">4364</Data></Cell>
<Cell ss:StyleID="ce2"><Data ss:Type="Number">0.65</Data></Cell>
<Cell ss:StyleID="ce2"><Data ss:Type="Number">80396.00</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">51.868387</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">1.255384</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">4.222036</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">1.536879</Data></Cell>
<Cell><Data ss:Type="Number">0.65232756164076755</Data></Cell>
<Cell ss:StyleID="ce11"><Data ss:Type="Number">1.8482</Data></Cell>
<Cell><Data ss:Type="Number">1550</Data></Cell>
<Cell><Data ss:Type="Number">-1.28</Data></Cell>
<Cell><Data ss:Type="Number">12</Data></Cell>
<Cell><Data ss:Type="Number">14</Data></Cell>
<Cell><Data ss:Type="Number">770</Data></Cell>
<Cell><Data ss:Type="Number">-0.91</Data></Cell>
</Row>
<Row>
<Cell><Data ss:Type="Number">1336</Data></Cell>
<Cell ss:StyleID="ce2"><Data ss:Type="Number">0.73</Data></Cell>
<Cell ss:StyleID="ce2"><Data ss:Type="Number">79202.00</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">60.971517</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">1.315341</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">2.738753</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">1.903100</Data></Cell>
<Cell><Data ss:Type="Number">0.7278135720863973</Data></Cell>
<Cell ss:StyleID="ce11"><Data ss:Type="Number">2.6878</Data></Cell>
<Cell><Data ss:Type="Number">1299</Data></Cell>
<Cell><Data ss:Type="Number">0.07</Data></Cell>
<Cell><Data ss:Type="Number">13</Data></Cell>
<Cell><Data ss:Type="Number">16</Data></Cell>
<Cell><Data ss:Type="Number">637</Data></Cell>
<Cell><Data ss:Type="Number">-1.57</Data></Cell>
</Row>

Мне хотелось бы его считать как классическую таблицу, чтобы заниматься сортировкой, обработкой результатов. Пересохранение в csv и открытие с помощью pd.read_csv работает прекрасно, но хотелось бы избавиться от открытия и пересохранения каждого файла. Поэтому попробовал следующее:

Python
1
df = pd.read_xml('example2.xml')

Не сработало. С xml толком не знаком, может мешают стили, форматирование? Может что то из файла убрать надо, чтобы такой конструкцией удалось воспользоваться (pd.read_xml...)
Если требуется - приложу полный файл. Но в целом я скопировал под спойлер код xml, содержащий заголовки и две строки таблицы. Далее - однообразно. И закрывающие скобки в конце.

vic5710 · 19.08.2023, 04:45

типа так

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
import pandas as pd
import xml.parsers.expat
 
class Parser():
    def __init__(self,fname):
        self.fname = fname
        self.tag = ''
        self.out = []
        self.p = xml.parsers.expat.ParserCreate()
        self.p.StartElementHandler = self.start_element
        self.p.EndElementHandler = self.end_element
        self.p.CharacterDataHandler = self.char_data
    
    def start_element(self,name, attrs):
        self.tag = name
        if name == 'Row':
            self.out.append([])
        #print(name,attrs)
    def end_element(self,name):
        pass
    
    def char_data(self,data):
        t = data.strip()
        if t and self.tag == 'Data':
            self.out[-1].append(t)
    
    def read(self):
        with open(self.fname) as f:
            self.p.Parse(f.read())
        return self.out
 
p = Parser('data.xml')
df = pd.DataFrame(p.read())
print(df)

@Xpert1993 · 19.08.2023, 14:45 **[ТС]**

Спасибо большое, всё отлично.

YuS_2 · 22.08.2023, 12:39

Сообщение от Xpert1993

Но в целом я скопировал под спойлер код xml, содержащий заголовки и две строки таблицы. Далее - однообразно. И закрывающие скобки в конце.

Закрывающих тегов не хватает... xml не валидный...
Если поизучать документацию на pandas, то можно обнаружить, что с подобной структурой, надо работать примерно так:

Python
1
2
3
import pandas as pd
df = pd.read_xml("test.xml", xpath=".//pandas:Cell", namespaces={"pandas": "urn:schemas-microsoft-com:office:spreadsheet"})
print(df)

@Xpert1993 · 22.08.2023, 14:24 **[ТС]**

YuS_2,
Спасибо за ответ.
Да, xml не полный и без закрывающих тегов, я сказал об этом в первом сообщении. Сам файл большого объёма, приведена лишь та его область, где начинается повторяющаяся часть.
Посмотрю Ваш вариант, решение одной строкой стандартным модулем Pandas для меня бы приятнее.

YuS_2 · 22.08.2023, 14:48

Сообщение от Xpert1993

решение одной строкой стандартным модулем Pandas для меня бы приятнее

это не совсем решение, пока... скорее, пример чтения xml файла...
Но то, что требуется Вам, таким способом не получить. В Вашем файле нет уникальных наименований-тегов для столбцов, поэтому чтобы получить то, что требуется, необходимо ещё поработать над кодом...

Добавлено через 3 минуты
а вообще, у pandas есть варианты, например, можно и так:

Python
1
2
3
import pandas as pd
df = pd.read_xml("test.xml",  iterparse = {"Cell": ["Data"]})
print(df)

- но это также будет сплошной набор ячеек, без деления на строки...

ссылка на документацию

vic5710 · 22.08.2023, 18:04

Сообщение от Xpert1993

решение одной строкой стандартным модулем Pandas для меня бы приятнее

pandas те же самые парсеры использует, не так уж их много
expat -самый простой, может невалидные файлы обрабатывать

vic5710 · 24.08.2023, 16:21

Сообщение от YuS_2

но это также будет сплошной набор ячеек, без деления на строки...

pandas lxml использует, можно проще

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
from lxml import etree
import pandas as pd
 
def lxml_parse(fname, row, col):
    out = []
    tree = etree.iterparse(fname,events=['start'])
    for event,elem in tree :
        name = etree.QName(elem.tag).localname
        if row == name: out.append([])
        if col == name: out[-1].append(elem.text)
    return out
 
df = pd.DataFrame(lxml_parse('data2.xml','Row','Data'))
print(df)

YuS_2 · 25.08.2023, 08:50

Сообщение от vic5710

можно проще

Возможно, но как по мне, то проще, как раз, получить одноуровневый список с ячейками и затем разбить его на строки (по количеству элементов Row) или пройтись по дереву парсером и повыдергивать ячейки так, как требуется... в общем, вариантов больше, чем один...

Новые блоги и статьи Все статьи Все блоги /
Подстановка значения реквизита справочника в табличную часть документа Maks 10.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .	Очистка реквизитов документа при копировании Maks 09.04.2026 Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .	модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий anaschu 08.04.2026 https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI	Блокировка документа от изменений, если он открыт у другого пользователя Maks 08.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка. Hrethgir 08.04.2026 Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .	Модель ЗдрввоСохранения 7: больше работников, больше ресурсов. anaschu 08.04.2026 работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ	Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики. Hrethgir 07.04.2026 Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .	Горе от ума kumehtar 07.04.2026 Эта мне ментальная установка, что вот прямо сейчас, мол, мне для полного счастья не хватает (нужное вписать), и когда я этого достигну - тогда и полный кайф. Одна из самых сильных ловушек на пути. . . .

@Xpert1993 0 / 0 / 0 Регистрация: 16.06.2012 Сообщений: 56
	19.08.2023, 14:45 [ТС]
	Спасибо большое, всё отлично. 0

@Xpert1993 0 / 0 / 0 Регистрация: 16.06.2012 Сообщений: 56
	22.08.2023, 14:24 [ТС]
	YuS_2, Спасибо за ответ. Да, xml не полный и без закрывающих тегов, я сказал об этом в первом сообщении. Сам файл большого объёма, приведена лишь та его область, где начинается повторяющаяся часть. Посмотрю Ваш вариант, решение одной строкой стандартным модулем Pandas для меня бы приятнее. 0

Чтение XML в Pandas Dataframe

Решение