Форум программистов, компьютерный форум, киберфорум
Наши страницы
C# для начинающих
Войти
Регистрация
Восстановить пароль
 
Рейтинг 4.67/3: Рейтинг темы: голосов - 3, средняя оценка - 4.67
Sternman
57 / 58 / 28
Регистрация: 10.01.2018
Сообщений: 357
Завершенные тесты: 2
1
.NET 4.x

Посоветуйте библиотеку для парсинга XML (xdxf)

03.02.2018, 22:18. Просмотров 589. Ответов 4
Метки xdxf, xml (Все метки)

Здравствуйте. Есть словари в формате xdxf. Кто не знаком xdxf - это, как по мне, сильно неудачная попытка улучшить xml. Хотя авторы утверждают иначе.
Словари, в основном, имеют следующий вид:
XML
1
2
3
4
5
6
7
8
9
10
11
12
13
14
<xdxf>
<ar>
   <k>word</k>
word(дубль капсом, зачем не знаю)
description(в зависимости от словаря, либо на том же либо на другом языке. Символы могут быть какими угодно.
 Полно переносов в строке. Также могут присутствовать переводы каретки.) 
<c="gray">text description(в некоторых <ar> есть в некоторых нету)</c><i>text descr.
(что делает, загадка. но это и не важно.)</i>
<tr>транскрипция(может и не быть, в отдельно взятом <ar>)</tr>
</ar>
<ar>
...
</ar>
</xdxf>
Вот такая странная структура. теги c и i вытираю регулярками. Дальше нужно вытащить информацию. Средствами c# не получается. потому что в родительском теге стоит и текст, и теги. Все попытки написать регулярное выражение с учетом всех возможных вариантов не увенчались успехом. Слоями тоже не получается разобрать, потому что разрушается структура и не выходит потом собрать все в таблицу. Такое чувство что автор разметки, сначала писал парсер потом для него придумал саму разметку. Посоветуйте мощный парсер для XML, или каким образом можно привести это к адекватному виду для импорта в БД?

Добавлено через 8 минут
ах да во многих словарях есть отступы в начале. типа вот так:
XML
1
2
3
4
5
.<ar>
.text.\n
....next\n\r
.text....
.</ar>
точка = пробел.
Это очень усложняет жизнь потому что не могу определить где начало строки, а где конец. Если удалить пробелы в начале, очень много слов слипаются. Крч надеюсь на вашу помощь)
0
QA
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
03.02.2018, 22:18
Ответы с готовыми решениями:

Нет нужного класса в библиотеке для парсинга XML
Всем привет! Вчера начал изучать C# для написания логики под среду playerIO. Столкнулся вот с...

Обработка ошибки при загрузке для парсинга xml файла
помогите пожалуйста как сделать действие чтоб при ошибке загрузки файла по ссылке можно было это...

JSON или XML: что более оптимизировано для парсинга
У какого языка более быстрый стандартный парсер (в глубину) ?

Обработка ошибки при загрузке для парсинга xml файла
вот код var client = new HttpClient(); var uri = new...

Написать библиотеку отправки GET-запроса и парсинга страниц
Помогите с написанием длл которая будет отправлять гет запрос и парсить от туда весь код страницы ...

4
OwenGlendower
Супер-модератор
Эксперт .NET
11506 / 9689 / 4067
Регистрация: 17.03.2014
Сообщений: 19,333
Записей в блоге: 1
Завершенные тесты: 2
03.02.2018, 23:09 2
Sternman, документацию по формату ты полностью прочитал?

Цитата Сообщение от Sternman Посмотреть сообщение
xdxf - это, как по мне, сильно неудачная попытка улучшить xml
Авторы языка формата ставили себе более скромные цели - универсальный формат для словарей:
XDXF stands for XML Dictionary Exchange Format, and specifies a semantic format for storing dictionaries.
Источник: https://github.com/soshial/xdxf_makedict/blob/master/README.md

Цитата Сообщение от Sternman Посмотреть сообщение
Вот такая странная структура.
Нормальная структура.

Цитата Сообщение от Sternman Посмотреть сообщение
теги c и i вытираю регулярками.
Регулярные выражения здесь не нужны. Можно найти дочерние теги и удалить их.

Цитата Сообщение от Sternman Посмотреть сообщение
Посоветуйте мощный парсер для XML
Стандартных средств .NET более чем достаточно.

Цитата Сообщение от Sternman Посмотреть сообщение
каким образом можно привести это к адекватному виду для импорта в БД?
Что такое "адекватный вид" в данном случае?

Цитата Сообщение от Sternman Посмотреть сообщение
Такое чувство что автор разметки, сначала писал парсер потом для него придумал саму разметку.
Такое ощущение что ты не разобрался ни с XDXF форматом ни со средствами работы с XML в .NET.
0
Sternman
57 / 58 / 28
Регистрация: 10.01.2018
Сообщений: 357
Завершенные тесты: 2
03.02.2018, 23:29  [ТС] 3
Цитата Сообщение от OwenGlendower Посмотреть сообщение
универсальный формат для словарей:
судя по его распространению, не такой уж и универсальный. Просто мне посчастливилось найти нужные словари только в этом формате.
Цитата Сообщение от OwenGlendower Посмотреть сообщение
Нормальная структура.
Прощу прощения, если так глубоко задел ваши чувства.
Цитата Сообщение от OwenGlendower Посмотреть сообщение
Такое ощущение что ты не разобрался ни с XDXF форматом
С xdxf мне и незачем разбираться особо.
Цитата Сообщение от OwenGlendower Посмотреть сообщение
Стандартных средств .NET более чем достаточно.
Цитата Сообщение от OwenGlendower Посмотреть сообщение
Такое ощущение что ты не разобрался со средствами работы с XML в .NET.
Скроее всего так и есть. С английским проблемы, на русском не так уж и много статей, с уникальным текстом, а не сплошным копипастом. Пойду тогда искать дальше информацию.
0
OwenGlendower
Супер-модератор
Эксперт .NET
11506 / 9689 / 4067
Регистрация: 17.03.2014
Сообщений: 19,333
Записей в блоге: 1
Завершенные тесты: 2
03.02.2018, 23:41 4
Цитата Сообщение от Sternman Посмотреть сообщение
С xdxf мне и незачем разбираться особо.
Непонятно как можно писать надежный парсер не зная формата, но тебе виднее.

Цитата Сообщение от Sternman Посмотреть сообщение
судя по его распространению, не такой уж и универсальный. Просто мне посчастливилось найти нужные словари только в этом формате.
Универсальный ≠ самый распространенный (или лучший). Взять для примера бинарную сериализацию в .NET. Она универсальна, но широкого распространения не получила.
0
Sternman
57 / 58 / 28
Регистрация: 10.01.2018
Сообщений: 357
Завершенные тесты: 2
03.02.2018, 23:51  [ТС] 5
Цитата Сообщение от OwenGlendower Посмотреть сообщение
Непонятно как можно писать надежный парсер не зная формата
5 словарей на компе и общего у них только расположение заголовка и 2х тегов <ar> и <k> зачем изучать формат если его никто не придерживается. Остальной посыл я понял. Спасибо.
0
03.02.2018, 23:51
Answers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
03.02.2018, 23:51

Заказываю контрольные, курсовые, дипломные и любые другие студенческие работы здесь.

Посоветуйте библиотеку для красивой отрисовки Pie chart'a
Для красивой отрисовки Pie chart'a, с возможностью передвигать мышью &quot;куски&quot; chart'a (сорри если...

Посоветуйте библиотеку для формирования отчетов в *.pdf, *.doc, *.xls
Доброго времени суток, уважаемые форумчане! В очередной раз поднимаю вопрос об отчетах в C#.NET....

Посоветуйте программу для парсинга вордстата
Добрый день, нужно спарсить результаты вордстата. Посоветуйте какой программой или сервисом лучше...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2020, vBulletin Solutions, Inc.