Токенезация

@constantin_01 · Регистрация: 30.04.2019

Студворк — интернет-сервис помощи студентам

Здравствуйте!

Ищу эффективный способ токенизации предложений естественного языка. Наивный подход "split()" токенезации по одному слову не подходит, так как естественный язык содержит составные члены предложения, например, "несмотря на то что".

Вкратце, имеется список паттернов, необходимо сделать что-то вроде этого:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
pattern  = 'что после того, как'
sentence = "Она выразила уверенность, что после того, как туристы утром проснутся ... " 
# здесь идет поиск составных частей предложения (по корпусу)
if pattern in sentence:
     tokenize(pattern, sentence)
 
# здесь происходит токенезация все того, что является одним словом
 
sentence = sentence.split()
 
# результат - список токенов
 
sentence = "['Она'] ['выразила'] ['уверенность' ], ['что после того, как'],  ['туристы'], ['утром'], ['проснутся'] ... "

Реализация выше условная, если у вас есть идеи - прошу предложить. Спасибо.

@Garry Galler · 10.08.2019, 00:52

Сообщение от constantin_01

Ищу эффективный способ токенизации предложений естественного языка

Но это у вас не токенизация, а выделение синтаксически значимых конструкций.
Вы же (судя по вашим предыдущим темам) грамматику для синтаксического разбора уже написали?
Собственно, для русского языка существует проект NLTK4RUSIAN (https://github.com/named-entity/nltk4russian), который использует pymorphy2 для маркировки слов POS тегами и синтаксический парсер из NLTK для разбора должным образом тегированного предложения.

Парсер из NLTK работает так:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
import nltk
 
grammar = r"""
NP: {<DT|JJ|NN.*>+}          # Chunk sequences of DT, JJ, NN
PP: {<IN><NP>}               # Chunk prepositions followed by NP
VP: {<VB.*><NP|PP|CLAUSE>+$} # Chunk verbs and their arguments
CLAUSE: {<NP><VP>}           # Chunk NP, VP
"""
cp = nltk.RegexpParser(grammar)
sentence = [
    ("Mary", "NN"), ("saw", "VBD"), 
    ("the", "DT"), ("cat", "NN"),  
    ("sit", "VB"), ("on", "IN"), 
    ("the", "DT"), ("mat", "NN")
]
tree = cp.parse(sentence)
for subtree in tree:
    if isinstance(subtree , nltk.tree.Tree):
        print(subtree.label(), subtree.leaves())
 
print(tree)

Code
1
2
3
4
5
6
7
8
9
10
NP [('Mary', 'NN')]
CLAUSE [('the', 'DT'), ('cat', 'NN'), ('sit', 'VB'), ('on', 'IN'), ('the', 'DT'), ('mat', 'NN')]
 
 
(S
  (NP Mary/NN)
  saw/VBD
  (CLAUSE
    (NP the/DT cat/NN)
    (VP sit/VB (PP on/IN (NP the/DT mat/NN)))))

Но русскую морфологию он не знает. Поэтому его и скрестили с pymorphy2.

Новые блоги и статьи Все статьи Все блоги /
Знаешь почему 90% людей редко бывают счастливыми? kumehtar 14.04.2026 Потому что они ждут. Ждут выходных, ждут отпуска, ждут удачного момента. . . а удачный момент так и не приходит.	Фиксация колонок в отчете СКД Maks 14.04.2026 Фиксация колонок в СКД отчета типа Таблица. Задача: зафиксировать три левых колонки в отчете. Процедура ПриКомпоновкеРезультата(ДокументРезультат, ДанныеРасшифровки, СтандартнаяОбработка) / / . . .	Настройки VS Code Loafer 13.04.2026 { "cmake. configureOnOpen": false, "diffEditor. ignoreTrimWhitespace": true, "editor. guides. bracketPairs": "active", "extensions. ignoreRecommendations": true, . . .	Оптимизация кода на разграничение прав доступа к элементам формы Maks 13.04.2026 Алгоритм из решения ниже реализован на нетиповом документе, разработанного в конфигурации КА2. Задачи, как таковой, поставлено не было, проделанное ниже исключительно моя инициатива. Было так:. . .
Контроль заполнения и очистка дат в зависимости от значения перечислений Maks 12.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .	Архитектура слоя интернета для сервера-слоя. Hrethgir 11.04.2026 В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .	Подстановка значения реквизита справочника в табличную часть документа Maks 10.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .	Очистка реквизитов документа при копировании Maks 09.04.2026 Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .