Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.80/5: Рейтинг темы: голосов - 5, средняя оценка - 4.80
1 / 1 / 0
Регистрация: 30.04.2019
Сообщений: 89

Токенезация

09.08.2019, 22:32. Показов 1054. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте!

Ищу эффективный способ токенизации предложений естественного языка. Наивный подход "split()" токенезации по одному слову не подходит, так как естественный язык содержит составные члены предложения, например, "несмотря на то что".

Вкратце, имеется список паттернов, необходимо сделать что-то вроде этого:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
pattern  = 'что после того, как'
sentence = "Она выразила уверенность, что после того, как туристы утром проснутся ... " 
# здесь идет поиск составных частей предложения (по корпусу)
if pattern in sentence:
     tokenize(pattern, sentence)
 
# здесь происходит токенезация все того, что является одним словом
 
sentence = sentence.split()
 
# результат - список токенов
 
sentence = "['Она'] ['выразила'] ['уверенность' ], ['что после того, как'],  ['туристы'], ['утром'], ['проснутся'] ... "

Реализация выше условная, если у вас есть идеи - прошу предложить. Спасибо.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
10.08.2019, 00:52
Цитата Сообщение от constantin_01 Посмотреть сообщение
Ищу эффективный способ токенизации предложений естественного языка
Но это у вас не токенизация, а выделение синтаксически значимых конструкций.
Вы же (судя по вашим предыдущим темам) грамматику для синтаксического разбора уже написали?
Собственно, для русского языка существует проект NLTK4RUSIAN (https://github.com/named-entity/nltk4russian), который использует pymorphy2 для маркировки слов POS тегами и синтаксический парсер из NLTK для разбора должным образом тегированного предложения.

Парсер из NLTK работает так:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
import nltk
 
grammar = r"""
NP: {<DT|JJ|NN.*>+}          # Chunk sequences of DT, JJ, NN
PP: {<IN><NP>}               # Chunk prepositions followed by NP
VP: {<VB.*><NP|PP|CLAUSE>+$} # Chunk verbs and their arguments
CLAUSE: {<NP><VP>}           # Chunk NP, VP
"""
cp = nltk.RegexpParser(grammar)
sentence = [
    ("Mary", "NN"), ("saw", "VBD"), 
    ("the", "DT"), ("cat", "NN"),  
    ("sit", "VB"), ("on", "IN"), 
    ("the", "DT"), ("mat", "NN")
]
tree = cp.parse(sentence)
for subtree in tree:
    if isinstance(subtree , nltk.tree.Tree):
        print(subtree.label(), subtree.leaves())
 
print(tree)

Code
1
2
3
4
5
6
7
8
9
10
NP [('Mary', 'NN')]
CLAUSE [('the', 'DT'), ('cat', 'NN'), ('sit', 'VB'), ('on', 'IN'), ('the', 'DT'), ('mat', 'NN')]
 
 
(S
  (NP Mary/NN)
  saw/VBD
  (CLAUSE
    (NP the/DT cat/NN)
    (VP sit/VB (PP on/IN (NP the/DT mat/NN)))))
Но русскую морфологию он не знает. Поэтому его и скрестили с pymorphy2.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
Ответ Создать тему
Новые блоги и статьи
Знаешь почему 90% людей редко бывают счастливыми?
kumehtar 14.04.2026
Потому что они ждут. Ждут выходных, ждут отпуска, ждут удачного момента. . . а удачный момент так и не приходит.
Фиксация колонок в отчете СКД
Maks 14.04.2026
Фиксация колонок в СКД отчета типа Таблица. Задача: зафиксировать три левых колонки в отчете. Процедура ПриКомпоновкеРезультата(ДокументРезультат, ДанныеРасшифровки, СтандартнаяОбработка) / / . . .
Настройки VS Code
Loafer 13.04.2026
{ "cmake. configureOnOpen": false, "diffEditor. ignoreTrimWhitespace": true, "editor. guides. bracketPairs": "active", "extensions. ignoreRecommendations": true, . . .
Оптимизация кода на разграничение прав доступа к элементам формы
Maks 13.04.2026
Алгоритм из решения ниже реализован на нетиповом документе, разработанного в конфигурации КА2. Задачи, как таковой, поставлено не было, проделанное ниже исключительно моя инициатива. Было так:. . .
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru