Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.56/18: Рейтинг темы: голосов - 18, средняя оценка - 4.56
1 / 1 / 0
Регистрация: 28.05.2016
Сообщений: 17

Парсинг xml с глубокой вложенностью

09.10.2017, 09:05. Показов 3496. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте. Недавно начал осваивать Python и столкнулся с задачей распарсить файл xml с неизвестной вложенностью.
Причем в результате парсинга необходимо получить массив (словарь или список) всех дочерних элементов.
Например, как из вот этого:

Code
1
2
3
4
5
6
7
8
9
10
11
12
<response>...<results>...<grouping>...<group>...
    <doc>...
         <title>
             Parent
             <hlword>Variable 1</hlword>
                       <variable>Last Variable 1</variable>
             <hlword>Variable 2</hlword>
             word4
          </title>
          ...
    </doc>
</group>...</grouping>...</results>...</response>...
Получить что то вроде:

Parent ==> Variable 1 ==> Last Variable 1
Parent ==> Variable 2

пробовал что-то типа такого:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
from lxml import etree
 
def get_node(node, lst):
    
    attrib = ''
    d = node.attrib
    if d:
        d = d.get('text')
        attrib = ','.join([i + ':' + d[i] for i in d])
 
    lst.append([attrib])
 
    for n in node:
        get_node(n, lst)
 
 
tree = etree.parse("/test.xml")
out = []
get_node(tree.getroot(), out)
на выходе получилось совсем не то, что хотелось. Направьте меня пожалуйста на путь истиный...
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
09.10.2017, 09:05
Ответы с готовыми решениями:

Парсинг сайта с глубокой вложенностью
Есть сайт http://www.edu.ru/schools/catalog/ Каталог всех школ РФ по регионам. Можно ли каким-то образом (средствами php) выдрать...

Парсинг xml с очень большой вложенностью
Добрый день! Есть xml вида &lt;hieder&gt; &lt;tag1&gt;fvdfg&lt;/tag1&gt; &lt;tag2&gt;bnn&lt;/tag1&gt; &lt;tag3&gt; &lt;tag4&gt;fvbfhg&lt;/tag4&gt; ...

Парсинг объекта с неограниченной вложенностью
Всем привет! Я пытаюсь написать рекурсивную функцию, которая могла бы приводить получаемый с сервера объект к нужному виду: { ...

3
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
09.10.2017, 14:07
Цитата Сообщение от MIKE1985 Посмотреть сообщение
распарсить файл xml
Судя по коду, про xpath вы никогда не слышали?
0
1 / 1 / 0
Регистрация: 28.05.2016
Сообщений: 17
10.10.2017, 05:11  [ТС]
Откровенно говоря я вообще впервые столкнулся с таким форматом как *.xml. На данный момент самым оптимальным решением для моей задачи является открытие файла xml в excel, где получается табличная структура вида как во вложении, после чего получаю эти данные в pandas. Однако этот вариант становится вообще не вариантом для больших по размеру файлов *.xml. Хотя конечная цель и есть получение такой структуры данных как в excel для дальнейшей обработки. Я потому и спросил есть ли способ попроще. Грубо говоря не зная структуры самого *.xml файла вытащить из него значения в какой-либо массив. И да, про xpath я никогда не слышал...
Не моглы бы Вы привести мне какой-нибудь пример с использованием этого языка запросов применительно к python и lxml?
Миниатюры
Парсинг xml с глубокой вложенностью  
0
1 / 1 / 0
Регистрация: 28.05.2016
Сообщений: 17
10.10.2017, 07:31  [ТС]
Попробовал сделать так, но получил list с элементами, а не значения имен...
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
from lxml import etree
import xml.etree.cElementTree as ET
 
def get_node(node, lst):
    lst.append([node.xpath('ancestor-or-self::*')])
    for n in node:
        get_node(n, lst)
 
tree = etree.parse("Путь к файлу")
out = []
get_node(tree.getroot(), out)
 
print("Result ",out)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
10.10.2017, 07:31
Помогаю со студенческими работами здесь

Дан XML-документ с двухуровневой вложенностью
Дан XML-документ с двухуровневой вложенностью. У элемента &quot;Пользователь&quot;присутствует атрибут имя и следующие элементы:...

Десериализация XML файла с многократной вложенностью
Здравствуйте. Возникла следующая проблема. Есть XML файл с ограниченным количеством типовых блоков. Например в файле ниже может...

Дан XML-документ с двухуровневой вложенностью
Дан XML-документ с двухуровневой вложенностью. XML-документ содержит несколько элементов, внутри которых представлено различное...

Десериализация XML файла с многократной вложенностью
Здравствуйте. Столкнулся с проблемой при десериализации XML файла. Облазил кучу форумов и документации, подскажите хоть направление...

Преобразовать XML с рекурсивной вложенностью объектов в Java объект и обратно
У меня есть XML следующего вида: &lt;?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot; standalone=&quot;yes&quot;?&gt; &lt;Trees&gt; &lt;Tree Id=&quot;1&quot;...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
Отправка уведомления на почту при изменении наименования справочника
Maks 24.03.2026
Программная отправка письма электронной почты на примере изменения наименования справочника "Склады" в конфигурации БП3. Перед реализацией необходимо выполнить настройку системной учетной записи. . .
модель ЗдравоСохранения 5. Меньше увольнений- больше дохода!
anaschu 24.03.2026
Теперь система здравосохранения уменьшает количество увольнений. 9TO2GP2bpX4 a42b81fb172ffc12ca589c7898261ccb/ https:/ / rutube. ru/ video/ a42b81fb172ffc12ca589c7898261ccb/ Слева синяя линия -. . .
Midnight Chicago Blues
kumehtar 24.03.2026
Такой Midnight Chicago Blues, знаешь?. . Когда вечерние улицы становятся ночными, а ты не можешь уснуть. Ты идёшь в любимый старый бар, и бармен наливает тебе виски. Ты смотришь на пролетающие. . .
Контроль уникальности заводского номера - вариант №2
Maks 24.03.2026
В отличие от предыдущего варианта добавлено прерывание циклов, также добавлены новые переменные для сохранения контекста ошибки перед прерыванием цикла: Процедура ПередЗаписью(Отказ, РежимЗаписи,. . .
SDL3 для Desktop (MinGW): Вывод текста со шрифтом TTF с помощью библиотеки SDL3_ttf на Си и C++
8Observer8 24.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-text-sdl3-c. zip finish-text-sdl3-cpp. zip
Жизнь в неопределённости
kumehtar 23.03.2026
Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .
Модель здравоСохранения: работники работают быстрее после её введения.
anaschu 23.03.2026
geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .
Контроль уникальности заводского номера - вариант №1
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере документа выдачи шин для спецтехники с табличной частью в конфигурации КА2. Данные берутся из регистра сведений, по. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru