Форум программистов, компьютерный форум, киберфорум
Наши страницы
Алгоритмы
Войти
Регистрация
Восстановить пароль
 
Рейтинг 5.00/6: Рейтинг темы: голосов - 6, средняя оценка - 5.00
zontik24
9 / 9 / 4
Регистрация: 14.06.2013
Сообщений: 386
1

Математические алгоритмы для парсинга текста из word и xml

19.10.2017, 21:00. Просмотров 1119. Ответов 3
Метки нет (Все метки)

Здравствуйте, какие есть математические алгоритмы для парсинга текста из word или xml или похожих. Проискал и русский и английский интернет - нашел только Data Mining, Text mining, которые относятся к анализу, а не парсингу. Также нашел большое кол-во готовых библиотек, но меня интересует именно математические алгоритмы

Буду благодарен за помощь
0
Лучшие ответы (1)
QA
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
19.10.2017, 21:00
Ответы с готовыми решениями:

Математические алгоритмы для парсинга текста из word и xml или подобных
Здравствуйте, какие есть математические алгоритмы для парсинга текста из word или xml или похожих....

Библиотека для xml парсинга
Доброго времени суток. У меня появилась необходимость чтения xml из потока (файлы будут...

Выбор для xml парсинга
Приветствую всех. Помогите пожалуйста советом, что лучше взять для парса xml файла. Что есть у...

Посоветуйте библиотеку для парсинга XML (xdxf)
Здравствуйте. Есть словари в формате xdxf. Кто не знаком xdxf - это, как по мне, сильно неудачная...

Нет нужного класса в библиотеке для парсинга XML
Всем привет! Вчера начал изучать C# для написания логики под среду playerIO. Столкнулся вот с...

3
vrm2
348 / 239 / 64
Регистрация: 03.12.2015
Сообщений: 504
Завершенные тесты: 2
19.10.2017, 21:25 2
Лучший ответ Сообщение было отмечено zontik24 как решение

Решение

Почитайте Синтаксический анализатор

Нет такого понятия "метаматические алгоритмы для парсинга". Есть алгоритмы, которые используются при создании парсеров. Но алгоритмы сильно зависят от "языка", который нужно анализировать (и файлы word и файлы xml используют "свой язык").

Вы хотите разобраться как работают парсеры?
1
zontik24
9 / 9 / 4
Регистрация: 14.06.2013
Сообщений: 386
19.10.2017, 23:39  [ТС] 3
vrm2, да, хотел разобрать, как устроено все внутри.
Думаю, мат. основа есть какая-то там (Какие-то устаявшиеся мат. алгоритмы) Не вся же реализация чисто техническая.

Смотрел, что в XML используется XPath, смотрел DOMDocument и прочие встроенные модули для парсинга на php, смотрел WordExtractor на Java и тд. : сложно копаться в исходниках и понимать, что к чему, да и к тому же, там, вероятно, чисто техническая база.

В каком-нибудь Data mining есть алгоритм k-means clustering (к-средних), который основан на математике, анализе итд
Вот и я хочу найти в каком-нибудь языке парсинга математическую реализацию, о которой можно где-нибудь почитать или откуда-нибудь "выдернуть" для изучения
0
vrm2
348 / 239 / 64
Регистрация: 03.12.2015
Сообщений: 504
Завершенные тесты: 2
20.10.2017, 00:53 4
Математики там мало. Вернее, она немного другая, нечисленная. Хотя да, в основе всего лежат формальные языки, которые изучает математика (в отличие от естественных языков).

Парсер берет последовательность символов и "расшифровывает текст" на основе определенных правил, или выдает ошибку. Эти правила придумывает разработчик языка (или разработчик формата файла). Эти правила называются грамматикой.

Например, придумаем "язык сложения натуральных чисел". Он описывается (упрощенно) как "число + число".
Парсер принимает на вход строку "5 + 8" и выдает результат "хотят сложить 5 и 8".
Парсер принимает на вход строку "5 8 *" и выдает результат "ничего не понимаю, первое число 5 вижу, а дальше белиберда какая-то".

Парсер превращает набор входных символов в некую структуру с которой удобно работать. Например, парсер XML превращает XML-текст (теги, тексты, комментарии) в дерево (DOM). Парсер трактует последовательность букв на основе грамматики XML. Грамматика определяет как записаны теги, как записаны комментарии, как записан текст и т.п. И для Word есть своя грамматика (язык для описания файлов word) и для XPath (язык для описания выбора элементов в DOM).


У Вас цель-то какая? Научиться парсить сайты? Создать свой компилятор/интерпретатор/язык программирования? Создавать библиотеки для работы с файлами (word, xml и т.п.)? Вычленять тексты из разных источников?


Теория у них у всех одна (парсеры, грамматика и пр.). Но дело в том, что для этих задач алгоритмы и подходы будут совсем разные. И теория парсеров и формальных языков не сильно и нужна, достаточно уже готовых библиотек (с которыми Вы уже столкнулись).
0
20.10.2017, 00:53
Answers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
20.10.2017, 00:53

Обработка ошибки при загрузке для парсинга xml файла
вот код var client = new HttpClient(); var uri = new...

JSON или XML: что более оптимизировано для парсинга
У какого языка более быстрый стандартный парсер (в глубину) ?

Выкачать XML с сервера или сайта для последующего парсинга
Подскажите как можно выкачать XML из сайта или сервера? скорей всего качаться будет с сайта...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2019, vBulletin Solutions, Inc.