Форум программистов, компьютерный форум, киберфорум
Python: Научные вычисления
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.85/13: Рейтинг темы: голосов - 13, средняя оценка - 4.85
0 / 0 / 0
Регистрация: 16.06.2012
Сообщений: 56

Чтение XML в Pandas Dataframe

18.08.2023, 17:49. Показов 3018. Ответов 8

Студворк — интернет-сервис помощи студентам
Добрый день.
Имеется файл расширения *.xml, предназначенный для открытия в excel (или подобном), следующего вида:
Кликните здесь для просмотра всего текста
XML
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<?mso-application progid="Excel.Sheet"?>
<Workbook xmlns="urn:schemas-microsoft-com:office:spreadsheet"
xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:x="urn:schemas-microsoft-com:office:excel"
xmlns:ss="urn:schemas-microsoft-com:office:spreadsheet"
xmlns:html="http://www.w3.org/TR/REC-html40">
<Styles>
<Style ss:ID="ce0"><NumberFormat ss:Format="0"/></Style>
<Style ss:ID="ce1"><NumberFormat ss:Format="0.0"/></Style>
<Style ss:ID="ce2"><NumberFormat ss:Format="0.00"/></Style>
<Style ss:ID="ce3"><NumberFormat ss:Format="0.000"/></Style>
<Style ss:ID="ce4"><NumberFormat ss:Format="0.0000"/></Style>
<Style ss:ID="ce5"><NumberFormat ss:Format="0.00000"/></Style>
<Style ss:ID="ce6"><NumberFormat ss:Format="0.000000"/></Style>
<Style ss:ID="ce7"><NumberFormat ss:Format="0.0000000"/></Style>
<Style ss:ID="ce8"><NumberFormat ss:Format="0.00000000"/></Style>
<Style ss:ID="ce11"><NumberFormat ss:Format="Fixed"/></Style>
<Style ss:ID="ce12"><NumberFormat ss:Format="General Date"/></Style>
<Style ss:ID="ce13"><NumberFormat ss:Format="0.00000"/></Style>
</Styles>
<Worksheet ss:Name="Optimizator Results">
<Table>
<Row>
<Cell><Data ss:Type="String">1</Data></Cell>
<Cell><Data ss:Type="String">2</Data></Cell>
<Cell><Data ss:Type="String">3</Data></Cell>
<Cell><Data ss:Type="String">4</Data></Cell>
<Cell><Data ss:Type="String">5</Data></Cell>
<Cell><Data ss:Type="String">6</Data></Cell>
<Cell><Data ss:Type="String">7</Data></Cell>
<Cell><Data ss:Type="String">8</Data></Cell>
<Cell><Data ss:Type="String">9</Data></Cell>
<Cell><Data ss:Type="String">10</Data></Cell>
<Cell><Data ss:Type="String">11</Data></Cell>
<Cell><Data ss:Type="String">12</Data></Cell>
<Cell><Data ss:Type="String">13</Data></Cell>
<Cell><Data ss:Type="String">14</Data></Cell>
<Cell><Data ss:Type="String">15</Data></Cell>
</Row>
<Row>
<Cell><Data ss:Type="Number">4364</Data></Cell>
<Cell ss:StyleID="ce2"><Data ss:Type="Number">0.65</Data></Cell>
<Cell ss:StyleID="ce2"><Data ss:Type="Number">80396.00</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">51.868387</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">1.255384</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">4.222036</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">1.536879</Data></Cell>
<Cell><Data ss:Type="Number">0.65232756164076755</Data></Cell>
<Cell ss:StyleID="ce11"><Data ss:Type="Number">1.8482</Data></Cell>
<Cell><Data ss:Type="Number">1550</Data></Cell>
<Cell><Data ss:Type="Number">-1.28</Data></Cell>
<Cell><Data ss:Type="Number">12</Data></Cell>
<Cell><Data ss:Type="Number">14</Data></Cell>
<Cell><Data ss:Type="Number">770</Data></Cell>
<Cell><Data ss:Type="Number">-0.91</Data></Cell>
</Row>
<Row>
<Cell><Data ss:Type="Number">1336</Data></Cell>
<Cell ss:StyleID="ce2"><Data ss:Type="Number">0.73</Data></Cell>
<Cell ss:StyleID="ce2"><Data ss:Type="Number">79202.00</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">60.971517</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">1.315341</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">2.738753</Data></Cell>
<Cell ss:StyleID="ce13"><Data ss:Type="Number">1.903100</Data></Cell>
<Cell><Data ss:Type="Number">0.7278135720863973</Data></Cell>
<Cell ss:StyleID="ce11"><Data ss:Type="Number">2.6878</Data></Cell>
<Cell><Data ss:Type="Number">1299</Data></Cell>
<Cell><Data ss:Type="Number">0.07</Data></Cell>
<Cell><Data ss:Type="Number">13</Data></Cell>
<Cell><Data ss:Type="Number">16</Data></Cell>
<Cell><Data ss:Type="Number">637</Data></Cell>
<Cell><Data ss:Type="Number">-1.57</Data></Cell>
</Row>

Мне хотелось бы его считать как классическую таблицу, чтобы заниматься сортировкой, обработкой результатов. Пересохранение в csv и открытие с помощью pd.read_csv работает прекрасно, но хотелось бы избавиться от открытия и пересохранения каждого файла. Поэтому попробовал следующее:
Python
1
df = pd.read_xml('example2.xml')
Не сработало. С xml толком не знаком, может мешают стили, форматирование? Может что то из файла убрать надо, чтобы такой конструкцией удалось воспользоваться (pd.read_xml...)
Если требуется - приложу полный файл. Но в целом я скопировал под спойлер код xml, содержащий заголовки и две строки таблицы. Далее - однообразно. И закрывающие скобки в конце.
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
18.08.2023, 17:49
Ответы с готовыми решениями:

Оптимизировать функцию заполнения столбца dataframe pandas
Доброго времени суток. У меня есть функция, которая заполняет столбец second_event_time, для каждого пользователя отдельно, значением...

Pandas dataframe
Доброго дня форумчане. Возник следующий вопрос. Есть у меня таблица, которую необходимо &quot;перевернуть&quot;. Так dataframe...

Pandas Dataframe
я импортирую фрейм данных из excel. Столбец 1 установлен как индекс. Я хочу проверить в индекс (Столбец 1) пустой ячейке с помощью цикла...

8
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
19.08.2023, 04:45
Лучший ответ Сообщение было отмечено Xpert1993 как решение

Решение

типа так
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
import pandas as pd
import xml.parsers.expat
 
class Parser():
    def __init__(self,fname):
        self.fname = fname
        self.tag = ''
        self.out = []
        self.p = xml.parsers.expat.ParserCreate()
        self.p.StartElementHandler = self.start_element
        self.p.EndElementHandler = self.end_element
        self.p.CharacterDataHandler = self.char_data
    
    def start_element(self,name, attrs):
        self.tag = name
        if name == 'Row':
            self.out.append([])
        #print(name,attrs)
    def end_element(self,name):
        pass
    
    def char_data(self,data):
        t = data.strip()
        if t and self.tag == 'Data':
            self.out[-1].append(t)
    
    def read(self):
        with open(self.fname) as f:
            self.p.Parse(f.read())
        return self.out
 
p = Parser('data.xml')
df = pd.DataFrame(p.read())
print(df)
1
0 / 0 / 0
Регистрация: 16.06.2012
Сообщений: 56
19.08.2023, 14:45  [ТС]
Спасибо большое, всё отлично.
0
Любознательный
 Аватар для YuS_2
7406 / 2259 / 360
Регистрация: 10.03.2016
Сообщений: 5,216
22.08.2023, 12:39
Цитата Сообщение от Xpert1993 Посмотреть сообщение
Но в целом я скопировал под спойлер код xml, содержащий заголовки и две строки таблицы. Далее - однообразно. И закрывающие скобки в конце.
Закрывающих тегов не хватает... xml не валидный...
Если поизучать документацию на pandas, то можно обнаружить, что с подобной структурой, надо работать примерно так:
Python
1
2
3
import pandas as pd
df = pd.read_xml("test.xml", xpath=".//pandas:Cell", namespaces={"pandas": "urn:schemas-microsoft-com:office:spreadsheet"})
print(df)
1
0 / 0 / 0
Регистрация: 16.06.2012
Сообщений: 56
22.08.2023, 14:24  [ТС]
YuS_2,
Спасибо за ответ.
Да, xml не полный и без закрывающих тегов, я сказал об этом в первом сообщении. Сам файл большого объёма, приведена лишь та его область, где начинается повторяющаяся часть.
Посмотрю Ваш вариант, решение одной строкой стандартным модулем Pandas для меня бы приятнее.
0
Любознательный
 Аватар для YuS_2
7406 / 2259 / 360
Регистрация: 10.03.2016
Сообщений: 5,216
22.08.2023, 14:48
Цитата Сообщение от Xpert1993 Посмотреть сообщение
решение одной строкой стандартным модулем Pandas для меня бы приятнее
это не совсем решение, пока... скорее, пример чтения xml файла...
Но то, что требуется Вам, таким способом не получить. В Вашем файле нет уникальных наименований-тегов для столбцов, поэтому чтобы получить то, что требуется, необходимо ещё поработать над кодом...

Добавлено через 3 минуты
а вообще, у pandas есть варианты, например, можно и так:
Python
1
2
3
import pandas as pd
df = pd.read_xml("test.xml",  iterparse = {"Cell": ["Data"]})
print(df)
- но это также будет сплошной набор ячеек, без деления на строки...

ссылка на документацию
0
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
22.08.2023, 18:04
Цитата Сообщение от Xpert1993 Посмотреть сообщение
решение одной строкой стандартным модулем Pandas для меня бы приятнее
pandas те же самые парсеры использует, не так уж их много
expat -самый простой, может невалидные файлы обрабатывать
0
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
24.08.2023, 16:21
Цитата Сообщение от YuS_2 Посмотреть сообщение
но это также будет сплошной набор ячеек, без деления на строки...
pandas lxml использует, можно проще
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
from lxml import etree
import pandas as pd
 
def lxml_parse(fname, row, col):
    out = []
    tree = etree.iterparse(fname,events=['start'])
    for event,elem in tree :
        name = etree.QName(elem.tag).localname
        if row == name: out.append([])
        if col == name: out[-1].append(elem.text)
    return out
 
df = pd.DataFrame(lxml_parse('data2.xml','Row','Data'))
print(df)
1
Любознательный
 Аватар для YuS_2
7406 / 2259 / 360
Регистрация: 10.03.2016
Сообщений: 5,216
25.08.2023, 08:50
Цитата Сообщение от vic5710 Посмотреть сообщение
можно проще
Возможно, но как по мне, то проще, как раз, получить одноуровневый список с ячейками и затем разбить его на строки (по количеству элементов Row) или пройтись по дереву парсером и повыдергивать ячейки так, как требуется... в общем, вариантов больше, чем один...
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
25.08.2023, 08:50
Помогаю со студенческими работами здесь

Dataframe pandas
Всем привет! Есть dataframe книги. Автор1 книга 1 Автор 2 книга 2 Автор 1 книга 3 Как можно сформировать xml файл с...

Выборка в DataFrame Pandas
Подскажите пожалуйста с задачей, не выходит сделать выборку, как в задании в DataFrame Pandas. 1.Оставьте в выборке только те...

Pandas: DataFrame to TEXT
Привет. У меня в БД (postgres) в одном из атрибутов таблицы хранятся данные типа TEXT. Есть некий csv файл, который я читаю и преобразую...

Pandas. Объединить DataFrame
Приветствую всех! Коллеги, подскажите. Я спарсил xml файл с помощью xmltodict. Получил два датафрейма (пришлось делать два из-за...

Объединение dataframe в pandas
Всем привет! Есть два dataframe pandas с идентичной структурой (ФИО, ДР), необходимо из второго dataframe обновить первый dataframe.Если...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
Горе от ума
kumehtar 07.04.2026
Эта мне ментальная установка, что вот прямо сейчас, мол, мне для полного счастья не хватает (нужное вписать), и когда я этого достигну - тогда и полный кайф. Одна из самых сильных ловушек на пути. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru