36 / 33 / 10
Регистрация: 14.06.2013
Сообщений: 432
|
|
1 | |
Математические алгоритмы для парсинга текста из word и xml19.10.2017, 21:00. Просмотров 1357. Ответов 3
Метки нет Все метки)
(
Здравствуйте, какие есть математические алгоритмы для парсинга текста из word или xml или похожих. Проискал и русский и английский интернет - нашел только Data Mining, Text mining, которые относятся к анализу, а не парсингу. Также нашел большое кол-во готовых библиотек, но меня интересует именно математические алгоритмы
Буду благодарен за помощь
0
|
|
19.10.2017, 21:00 | |
Выбор для xml парсинга Библиотека для xml парсинга Посоветуйте библиотеку для парсинга XML (xdxf) |
|
392 / 272 / 77
Регистрация: 03.12.2015
Сообщений: 635
|
|
19.10.2017, 21:25 | 2 |
![]() Решение
Почитайте Синтаксический анализатор
Нет такого понятия "метаматические алгоритмы для парсинга". Есть алгоритмы, которые используются при создании парсеров. Но алгоритмы сильно зависят от "языка", который нужно анализировать (и файлы word и файлы xml используют "свой язык"). Вы хотите разобраться как работают парсеры?
1
|
36 / 33 / 10
Регистрация: 14.06.2013
Сообщений: 432
|
|
19.10.2017, 23:39 [ТС] | 3 |
vrm2, да, хотел разобрать, как устроено все внутри.
Думаю, мат. основа есть какая-то там (Какие-то устаявшиеся мат. алгоритмы) Не вся же реализация чисто техническая. Смотрел, что в XML используется XPath, смотрел DOMDocument и прочие встроенные модули для парсинга на php, смотрел WordExtractor на Java и тд. : сложно копаться в исходниках и понимать, что к чему, да и к тому же, там, вероятно, чисто техническая база. В каком-нибудь Data mining есть алгоритм k-means clustering (к-средних), который основан на математике, анализе итд Вот и я хочу найти в каком-нибудь языке парсинга математическую реализацию, о которой можно где-нибудь почитать или откуда-нибудь "выдернуть" для изучения
0
|
392 / 272 / 77
Регистрация: 03.12.2015
Сообщений: 635
|
|
20.10.2017, 00:53 | 4 |
Математики там мало. Вернее, она немного другая, нечисленная. Хотя да, в основе всего лежат формальные языки, которые изучает математика (в отличие от естественных языков).
Парсер берет последовательность символов и "расшифровывает текст" на основе определенных правил, или выдает ошибку. Эти правила придумывает разработчик языка (или разработчик формата файла). Эти правила называются грамматикой. Например, придумаем "язык сложения натуральных чисел". Он описывается (упрощенно) как "число + число". Парсер принимает на вход строку "5 + 8" и выдает результат "хотят сложить 5 и 8". Парсер принимает на вход строку "5 8 *" и выдает результат "ничего не понимаю, первое число 5 вижу, а дальше белиберда какая-то". Парсер превращает набор входных символов в некую структуру с которой удобно работать. Например, парсер XML превращает XML-текст (теги, тексты, комментарии) в дерево (DOM). Парсер трактует последовательность букв на основе грамматики XML. Грамматика определяет как записаны теги, как записаны комментарии, как записан текст и т.п. И для Word есть своя грамматика (язык для описания файлов word) и для XPath (язык для описания выбора элементов в DOM). У Вас цель-то какая? Научиться парсить сайты? Создать свой компилятор/интерпретатор/язык программирования? Создавать библиотеки для работы с файлами (word, xml и т.п.)? Вычленять тексты из разных источников? Теория у них у всех одна (парсеры, грамматика и пр.). Но дело в том, что для этих задач алгоритмы и подходы будут совсем разные. И теория парсеров и формальных языков не сильно и нужна, достаточно уже готовых библиотек (с которыми Вы уже столкнулись).
0
|
20.10.2017, 00:53 | |
Заказываю контрольные, курсовые, дипломные и любые другие студенческие работы здесь. Нет нужного класса в библиотеке для парсинга XML Выкачать XML с сервера или сайта для последующего парсинга Обработка ошибки при загрузке для парсинга xml файла JSON или XML: что более оптимизировано для парсинга Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |