Форум программистов, компьютерный форум, киберфорум
Алгоритмы
Войти
Регистрация
Восстановить пароль
 
Рейтинг 4.71/7: Рейтинг темы: голосов - 7, средняя оценка - 4.71
36 / 33 / 10
Регистрация: 14.06.2013
Сообщений: 432
1

Математические алгоритмы для парсинга текста из word и xml

19.10.2017, 21:00. Просмотров 1357. Ответов 3
Метки нет (Все метки)

Здравствуйте, какие есть математические алгоритмы для парсинга текста из word или xml или похожих. Проискал и русский и английский интернет - нашел только Data Mining, Text mining, которые относятся к анализу, а не парсингу. Также нашел большое кол-во готовых библиотек, но меня интересует именно математические алгоритмы

Буду благодарен за помощь
0
Лучшие ответы (1)
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
19.10.2017, 21:00
Ответы с готовыми решениями:

Математические алгоритмы для парсинга текста из word и xml или подобных
Здравствуйте, какие есть математические алгоритмы для парсинга текста из word или xml или похожих....

Выбор для xml парсинга
Приветствую всех. Помогите пожалуйста советом, что лучше взять для парса xml файла. Что есть у...

Библиотека для xml парсинга
Доброго времени суток. У меня появилась необходимость чтения xml из потока (файлы будут...

Посоветуйте библиотеку для парсинга XML (xdxf)
Здравствуйте. Есть словари в формате xdxf. Кто не знаком xdxf - это, как по мне, сильно неудачная...

3
392 / 272 / 77
Регистрация: 03.12.2015
Сообщений: 635
19.10.2017, 21:25 2
Лучший ответ Сообщение было отмечено zontik24 как решение

Решение

Почитайте Синтаксический анализатор

Нет такого понятия "метаматические алгоритмы для парсинга". Есть алгоритмы, которые используются при создании парсеров. Но алгоритмы сильно зависят от "языка", который нужно анализировать (и файлы word и файлы xml используют "свой язык").

Вы хотите разобраться как работают парсеры?
1
36 / 33 / 10
Регистрация: 14.06.2013
Сообщений: 432
19.10.2017, 23:39  [ТС] 3
vrm2, да, хотел разобрать, как устроено все внутри.
Думаю, мат. основа есть какая-то там (Какие-то устаявшиеся мат. алгоритмы) Не вся же реализация чисто техническая.

Смотрел, что в XML используется XPath, смотрел DOMDocument и прочие встроенные модули для парсинга на php, смотрел WordExtractor на Java и тд. : сложно копаться в исходниках и понимать, что к чему, да и к тому же, там, вероятно, чисто техническая база.

В каком-нибудь Data mining есть алгоритм k-means clustering (к-средних), который основан на математике, анализе итд
Вот и я хочу найти в каком-нибудь языке парсинга математическую реализацию, о которой можно где-нибудь почитать или откуда-нибудь "выдернуть" для изучения
0
392 / 272 / 77
Регистрация: 03.12.2015
Сообщений: 635
20.10.2017, 00:53 4
Математики там мало. Вернее, она немного другая, нечисленная. Хотя да, в основе всего лежат формальные языки, которые изучает математика (в отличие от естественных языков).

Парсер берет последовательность символов и "расшифровывает текст" на основе определенных правил, или выдает ошибку. Эти правила придумывает разработчик языка (или разработчик формата файла). Эти правила называются грамматикой.

Например, придумаем "язык сложения натуральных чисел". Он описывается (упрощенно) как "число + число".
Парсер принимает на вход строку "5 + 8" и выдает результат "хотят сложить 5 и 8".
Парсер принимает на вход строку "5 8 *" и выдает результат "ничего не понимаю, первое число 5 вижу, а дальше белиберда какая-то".

Парсер превращает набор входных символов в некую структуру с которой удобно работать. Например, парсер XML превращает XML-текст (теги, тексты, комментарии) в дерево (DOM). Парсер трактует последовательность букв на основе грамматики XML. Грамматика определяет как записаны теги, как записаны комментарии, как записан текст и т.п. И для Word есть своя грамматика (язык для описания файлов word) и для XPath (язык для описания выбора элементов в DOM).


У Вас цель-то какая? Научиться парсить сайты? Создать свой компилятор/интерпретатор/язык программирования? Создавать библиотеки для работы с файлами (word, xml и т.п.)? Вычленять тексты из разных источников?


Теория у них у всех одна (парсеры, грамматика и пр.). Но дело в том, что для этих задач алгоритмы и подходы будут совсем разные. И теория парсеров и формальных языков не сильно и нужна, достаточно уже готовых библиотек (с которыми Вы уже столкнулись).
0
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
20.10.2017, 00:53

Заказываю контрольные, курсовые, дипломные и любые другие студенческие работы здесь.

Нет нужного класса в библиотеке для парсинга XML
Всем привет! Вчера начал изучать C# для написания логики под среду playerIO. Столкнулся вот с...

Выкачать XML с сервера или сайта для последующего парсинга
Подскажите как можно выкачать XML из сайта или сервера? скорей всего качаться будет с сайта...

Обработка ошибки при загрузке для парсинга xml файла
помогите пожалуйста как сделать действие чтоб при ошибке загрузки файла по ссылке можно было это...

JSON или XML: что более оптимизировано для парсинга
У какого языка более быстрый стандартный парсер (в глубину) ?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2021, vBulletin Solutions, Inc.