|
1 / 1 / 0
Регистрация: 30.04.2019
Сообщений: 89
|
|
Обработка естественного языка15.06.2019, 23:14. Показов 3378. Ответов 8
Метки нет (Все метки)
Здравствуйте!
Меня интересует компьютерная лингвистика, которая решает задачи обработки естественного языка. Имею достаточно смутное представление об курсе изучения. Большинство утверждает, что обработки естественного языка - это подзадача машинного обучения, т.е. нужно изучать нейронные сети. С другой стороны существует библиотека для python - nltk, которая не поддерживает нейронные сети. В книге "Natural Language Processing with Python" автор вообще не рассматривает нейронные сети. Какие же методы используются при обработки естественного языка и что нужно изучать?
0
|
|
| 15.06.2019, 23:14 | |
|
Ответы с готовыми решениями:
8
Обработка естественного языка Обработка естественного языка на Python. Задача на программирование Задача разбора предложения естественного языка |
|
|
|||
| 15.06.2019, 23:40 | |||
|
ML это прежде всего ... статистика, друг мой. Когда-то machine learning называлось скромно statistical learning. А потом пришли маркетологи и решили что это скучно :-) С тех пор появилась куча красивых "этикеток" типа machine learning, deep learning... https://nlpub.ru/Обработка_текста
0
|
|||
|
1 / 1 / 0
Регистрация: 30.04.2019
Сообщений: 89
|
|
| 15.06.2019, 23:47 [ТС] | |
|
Garry Galler, спасибо большое за сайт! Буду изучать.
Какие перспективы у nlp? Я спрашиваю потому что вижу, что очень мало материала по данному направлению, особенно в русском сегменте интернета, а в вузах выделяется как правило совсем небольшой курс в качестве электива. Кроме того, ни разу не видел, чтобы кого то называли "экспертом в области NLP".
0
|
|
|
170 / 122 / 61
Регистрация: 06.02.2015
Сообщений: 300
|
|
| 16.06.2019, 10:25 | |
|
"Большинство утверждает, что обработки естественного языка - это подзадача машинного обучения"
Не совсем корректно. Есть два пути: 1. Более простой - найти качественный корпус (тексты, разобранные или проверенные лингвистами) на которых будете обучать нейронку (не так просто как кажется, но тот же синтаксический анализатор MaltParser универсален). Получите быстрый, приемлемый результат 2. Более качественный и муторный. Придумываете свой велосипед. Если делаете все верно, то получите результат выше чем на первом этапе. Но это очень сложный путь. Какие перспективы ? Для английского вроде все хорошо в плане морфологического (части речи и морфологические характеристики) и синтаксического (какое слово от какого зависит). Насчет семантического (больший упор на смысл) похуже и этот этап зависит от того, что вы хотите в конце Для русского языка ситуация хуже. То, что есть в открытом доступе (тот же морфологический анализатор pymorphy2 ) приемлимо в каких-то рамках, но какие это рамки решаете сами. Ну у 80% слов в предложении верно определит часть речи. Как сильно повлияет на результат, то где он ошибся Качественные продукты либо у Институтов которые их разрабатывают и которым нужно писать запросы, чтобы получить их продукты (Национальный Корпус Русского Языка, РуТез), либо это закрытые коммерческие продукты за которые надо платить (Abbyy) Каждый понимает описание языка по разному. Например, только для русского языка знаю три корпуса текстов. Короче говоря, перспективы неплохие, но многое будет зависеть от того, что Вы хотите получить в итоге : вопросно-ответную систему, систему по переводу текстов, систему оценки тональности текстов или еще что-то
0
|
|
|
|
|||||||
| 16.06.2019, 12:00 | |||||||
|
По Обработке естественного языка на русском существует один-единственный более-менее современный учебник, да и тот скорей вводно-обзорного характера: Николаев И.С., Митренина О.В., Ландо Т.М Прикладная и компьютерная лингвистика[2016] + еще кое-что Батура,Т.В., Чаринцева М.В Основы обработки текстовой информации[Учебное пособие ,2016, 45 стр.] Батура Т.В. Математическая лингвистика и автоматическая обработка текстов на естественном языке[НГУ,2016,166 стр.] Все прочие, выпущенные до этого года - сильно академичны и никак не привязаны к актуальным технологиям применяемым на практике сегодня.
...Но это не отменяет того, что компьютерный лингвист должен быть прежде всего лингвистом и следовательно знать основы этой области. Иначе - беда, беда.... "знатоков" фреймворков ныне много, но в яндекс\майл или ABBYY берут иных спецов. В последнюю - отбирают прямо на их собственном кафедре компьютерной лингвистики в МФТИ. Добавлено через 7 минут P.S. "Нетленки" из зарубежных книг - "библии" NLP 1. Manning, D. Foundations of Statistical Natural Language Processing[700 стр.] 2. Jurafsky Daniel, Martin James H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition[2-е издание, 2008, 1030 стр].
0
|
|||||||
|
170 / 122 / 61
Регистрация: 06.02.2015
Сообщений: 300
|
|
| 16.06.2019, 17:01 | |
|
На деле же Вы ничего сами изобретать с нуля не будете, и будете использовать чужие разработки и чтобы понимать что там происходит помимо документации к этим программам. хотя бы посмотреть книги перечисленные Garry Galler посмотреть стоит.
Так же рекомендую поискать и почитать публикации о реальных проектах, которые созданы и ими можно пользоваться. Тузов и Каневский - качественный семантический словарь русского языка, который можно получить. Иомдин Леонид работал над одним из лучших открытых Синтаксических анализаторов для русского языка ЭТАП-3. Доступен онлаин и его можно использовать. Лукашевич Н. - разработка тезауруса на русском языке. Его тоже можно получить по запросу. Плюс в ВШЭ хорошая кафедра компьютерной лингвистики. Там тоже должны быть полезные публикации
0
|
|
|
1 / 1 / 0
Регистрация: 30.04.2019
Сообщений: 89
|
|
| 16.06.2019, 18:17 [ТС] | |
|
Andrey B, таким образом, компьютерная лингвистика это знание основных фрэймворков для работы с естественным языком и знание базовых лингвистических понятий и концепций?
Я просто собираюсь писать ВКР по данной теме и ищу места для исследований и разработок, то есть "поле поле непаханное". И желательно чтобы это имело прикладной характер. Добавлено через 10 минут Получается так, что нас учат алгоритмам со строками, например, вычисление длины Левенштейна (редакторская правка) или алгоритм Кнута-Морриса-Пратта, а на деле выходит, что работа с языком - это просто умелое сочетание чужих разработок.
0
|
|
|
170 / 122 / 61
Регистрация: 06.02.2015
Сообщений: 300
|
|
| 17.06.2019, 07:09 | |
|
Мой Вам совет такой. Поговорите с потенциальным научным руководителем.
Если замахнетесь на что-то крупное (сделать свой корпус текстов, свой синтаксический или морфологический анализатор), то за год вряд ли получите хороший результат Если все же что-то попроще (оценка тональности текста, что-то с использованием приведенных Вами алгоритмов) то вполне себе хорошая академическая работа. Компьютерная лингвистика специфическая область, где один человек вряд ли сам справится (есть обратные примеры тот же Михаил Коробов сделал вполне качественный анализатор pymorphy2) и приходится пользоваться разработками групп людей если работаете над чем-то крупным, если проект меньше то можно вполне справиться своими силами. Область действительно огромная и можно найти свою нишу. Так что дерзайте и терпения Вам
2
|
|
| 17.06.2019, 07:09 | |
|
Помогаю со студенческими работами здесь
9
Задача 4: Обработка естественного языка Перевод естественного языка Обработка естественного языка, определять кто чей брат Перевести с естественного языка на язык предикатов Перевод с естественного языка на язык логики Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Знаешь почему 90% людей редко бывают счастливыми?
kumehtar 14.04.2026
Потому что они ждут. Ждут выходных, ждут отпуска, ждут удачного момента. . .
а удачный момент так и не приходит.
|
Фиксация колонок в отчете СКД
Maks 14.04.2026
Фиксация колонок в СКД отчета типа Таблица.
Задача: зафиксировать три левых колонки в отчете.
Процедура ПриКомпоновкеРезультата(ДокументРезультат, ДанныеРасшифровки, СтандартнаяОбработка)
/ / . . .
|
Настройки VS Code
Loafer 13.04.2026
{
"cmake. configureOnOpen": false,
"diffEditor. ignoreTrimWhitespace": true,
"editor. guides. bracketPairs": "active",
"extensions. ignoreRecommendations": true,
. . .
|
Оптимизация кода на разграничение прав доступа к элементам формы
Maks 13.04.2026
Алгоритм из решения ниже реализован на нетиповом документе, разработанного в конфигурации КА2.
Задачи, как таковой, поставлено не было, проделанное ниже исключительно моя инициатива.
Было так:. . .
|
|
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2.
Задача: реализовать контроль корректности заполнения дат назначения. . .
|
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html
Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
|
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2.
Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
|
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях.
Задача: при копировании документа очищать определенные реквизиты и табличную. . .
|