Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.57/21: Рейтинг темы: голосов - 21, средняя оценка - 4.57
0 / 0 / 0
Регистрация: 20.05.2017
Сообщений: 8

Автоматическое разбиение текста на предложения в русском языке

20.05.2017, 20:24. Показов 4257. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Ребята, помогите написать пожалуйста программу на основе статьи.
Вложения
Тип файла: pdf 83.pdf (785.4 Кб, 23 просмотров)
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
20.05.2017, 20:24
Ответы с готовыми решениями:

Ввод предложения на русском языке
Люди помогите разобраться, как ввести через консоль предложение на русском языке ?

Дан текстовый файл Т, содержащий предложения на русском языке.
Выровнять строки по правому краю, вставляя между словами дополнительные пробелы. За образец считать самую длинную строку.

Дано предложение на русском языке. Построить список слов предложения
Добрый вечер!) Помогите пожалуйста с заданием.. Дано предложение на русском языке. Построить список слов предложения. Список не должен...

4
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
20.05.2017, 22:28
Как вам помочь, если вы еще ничего не написали?
Если вам это нужно для реальной задачи - используйте готовые сегментаторы, типа sent_tokenize из пакета nltk.
Если для чего-то другого - для начала начните хоть что-то писать. Подход с помощью статистики требует знание статистики.
В nltk это реализовано регулярными выражениями: не всегда точно, но для многих случаев подойдет.
0
0 / 0 / 0
Регистрация: 20.05.2017
Сообщений: 8
21.05.2017, 05:03  [ТС]
в python я разбираюсь очень плохо, а делать надо. Программа нужна для сдачи экзамена. Понадеялась, что кто-то поделиться своими знаниями и подскажет хотя бы алгоритм.
0
Просто Лис
Эксперт Python
 Аватар для Рыжий Лис
5972 / 3734 / 1099
Регистрация: 17.05.2012
Сообщений: 10,791
Записей в блоге: 9
21.05.2017, 11:59
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# -*- coding: utf-8 -*-
import re
 
text = '''\
Это было интересное время. Начало распада великой империи и рождение
сразу двух новых (одной из них даже предстоит намного пережить своего
создателя). Вот в этот-то уже давно бурлящий, но еще не плеснувший через
край котел упала, буквально с неба, еще одна человеческая жизнь. Каплей,
чтобы исчезнуть бесследно, крупинкой ли соли - чтобы растворится, оставив
после себя память, камнем на самое дно - наблюдать отстраненно за крушением
миропорядка или щепкой в водовороте событий, а может и пулей - насквозь.
Так ли это важно? Как жить и где умирать - каждый выбирает сам, а решает -
судьба.'''
 
ls = re.split(r'[\.\?!]', text)
print(ls)
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
21.05.2017, 14:06
Это неправильный в общем случае вариант. Он оставляет пустые строки и удаляет знаки терминирующие предложение.
Если уж пользоваться примитивами разбивки, то так:
Python
1
2
3
s = re.sub(r'\s+', ' ', text, flags=re.M)
for idx, s in enumerate(re.split(r'(?<=[.!?…]) ', s)):
    print('[{}]{}'.format(idx+1,s))
И потом, это не имеет отношения ни к статистич. подходу, ни к машинному обучению, ни к rule-based грамматикам. То есть к тому, что описывается в статье.

Добавлено через 8 минут
И, как я уже указал, есть nltk, где сегментация текста на предложения реализована на очень высоком уровне, хотя она и недостаточно точная в сравнении с методами сегментации основанными на статистич. подходах.

Добавлено через 27 минут
irinamiass2212,
Насчет nltk я немного ошибся - авторы более ответственно подошли к задаче и реализовали подход не на голых регулярках, а применили более сложный алгоритм с подсчетом частотных характеристик и грамматическими эвристиками.
source
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
21.05.2017, 14:06
Помогаю со студенческими работами здесь

Разбиение текста на предложения
Задача такова - создать текстовый файл, программа должна разбить этот текст на предложения, учитывая : 1. . 2. ... 3. ! 4. !!! 5....

Разбиение текста на предложения
Здравствуйте. Есть текст: Как мне разбить его на предложения? Я сделал так: Tmp-&gt;StrictDelimiter = true; ...

Разбиение текста на абзацы, предложения и слова
привет всем, нужно разбить текст с файла на абзаци и записать абзаци в List, потом с этого List разбить абзаци на предложения и записать их...

Вывод текста на русском языке
Добрый вечер, помогите пожалуйста переделать программу, чтобы она считывала русский буквы initGame(); stop(); function...

Разбиение текста на предложения и поиск в предложениях последних слов
Добрый день! Дана задача на использование библиотеки cstring для умения работать с классической C-строкой. Необходимо из введённого текста...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка. Рецензия / Мнение/ Перевод Сайт называется reddit: The Thinkpad X220 Tablet is the best budget school laptop period. Это. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru