Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 4.61/140: Рейтинг темы: голосов - 140, средняя оценка - 4.61
10 / 59 / 21
Регистрация: 12.03.2017
Сообщений: 514

Генерация текстов

19.02.2018, 19:16. Показов 31087. Ответов 21
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Сервис Яндекс.Рефераты (https://yandex.ru/referats/) может генерировать абсолютно бессмысленные тексты, корректные с точки зрения русской грамматики. Например, такие:

Реферат по литературоведению
Тема: «Прозаический жанр в XXI веке»

Анализ состава 17 рукописных сборников, содержащих тексты стихотворных фацеций, позволяет сделать вывод о том, что размер прекрасно выбирает скрытый смысл. Парафраз фонетически иллюстрирует лирический ямб. Даже в этом коротком фрагменте видно, что речевой акт теоретически возможен. Графомания, несмотря на внешние воздействия, вразнобой аллитерирует мифопоэтический хронотоп, но языковая игра не приводит к активно-диалогическому пониманию.

Анапест, как справедливо считает И.Гальперин, традиционно редуцирует анжамбеман, несмотря на отсутствие единого пунктуационного алгоритма. Палимпсест, несмотря на то, что все эти характерологические черты отсылают не к единому образу нарратора, нивелирует символ. Мифопорождающее текстовое устройство просветляет лирический одиннадцатисложник. Диахрония, несмотря на внешние воздействия, возможна.

В данном случае можно согласиться с А.А. Земляковским и с румынским исследователем Альбертом Ковачем, считающими, что брахикаталектический стих интуитивно понятен. Размер просветляет словесный не-текст. Очевидно, что заимствование параллельно. Орнаментальный сказ, несмотря на внешние воздействия, дает эпизодический брахикаталектический стих. Диахрония осознаёт анапест.

Есть даже такой синдром — шизофазия, или речевая разорванность. Он выражается в нарушении структуры речи, при котором фразы строятся правильно, однако не несут никакой смысловой нагрузки.

Давайте попробуем написать простейшую программу, которая генерирует подобные предложения.

Возьмем какой-либо текст (большой роман или несколько малых произведений) и составим таблицу: какие слова могут следовать за тем или иным словом.

Например, в рассказах Чехова после слова «сказал» могут встретиться такие слова:
>>> d[’сказал’]
[’саша’, ’придавая’, ’ему’, ’хохоча’, ’он’, ’ниткин’, ’помоев’, ’шестикрылов’, ’гамлет’,
’он’, ’что’, ’он’, ’приказчик’, ’генерал’, ’на’, ’что’, ’все’, ’он’, ’доктор’, ’он’, ’он’, ’он’, ’все’,
’пробкин’, ’помощник’, ’ей’, ’мамаше’, ’вы’, ’пять’, ’он’, ’человек’, ’он’, ’провизор’, ’он’, ’он’, ’он’,
’этого’, ’поручик’, ’кнапс’, ’он’, ’кнапс’, ’вы’, ’ершаков’, ’он’, ’мрачно’, ’он’, ’мне’, ’надоест’, ’мне’,
’узелков’, ’узелков’, ’узелков’, ’шапкин’, ’лакей’, ’что’, ’ну’, ’он’, ’нельзя’, ’ну’, ’сын’,
’он’, ’старик’, ’вам’, ’скажи’, ’он’, ’он’, ’фон’, ’ну’, ’семечкин’, ’сладким’, ’вам’, ’николай’,
’он’, ’клочков’, ’художник’, ’медик’, ’ей’, ’медик’, ’странная’, ’он’, ’он’]


Теперь мы можем построить итерационный процесс: начинаем с какого-нибудь слова и подбираем к нему следующее случайным образом из возможных вариантов. Делаем найденное слово текущим и т.д.

Если мы не будем считать словами знаки препинания, то у нас могут получаться осмысленные предложения, и мы получим «бредогенератор».

Этот метод подробно описан в книге Брайана Кернигана и Роба Пайка «Практика программирования».

По ссылке доступна разделенная на слова и сохраненная в виде списка книга «Путешествия Гулливера» Джонатана Свифта (файл swift.py). Ее можно использовать как источник сведений о порядке слов в русских предложениях. Список называется words, и его можно импортировать из своей программы такой конструкцией:

from swift import words

Примечания

Обратите внимание, что генерируемые предложения должны быть грамматически правильными, простая последовательность слов не подойдет.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
19.02.2018, 19:16
Ответы с готовыми решениями:

Генерация текстов
Сервис Яндекс.Рефераты (https://yandex.ru/referats/) может генерировать абсолютно бессмысленные тексты, корректные с точки зрения русской...

Генерация текстов
Сервис Яндекс.Рефераты (https://yandex.ru/referats/) может генерировать абсолютно бессмысленные тексты, корректные с точки зрения русской...

Дешифрование текстов, зашифрованных xor
Подскажите, пожалуйста, как решить задачу: есть несколько шифротекстов, зашифрованных одним ключом. Как расшифровать данные тексты? Xor...

21
 Аватар для Wi0M
395 / 123 / 48
Регистрация: 26.10.2013
Сообщений: 734
19.02.2018, 19:20
Цитата Сообщение от Pavlin234 Посмотреть сообщение
Давайте попробуем написать простейшую программу, которая генерирует подобные предложения.
давайте попробуем) Я начну)

Python
1
#!/usr/bin/env python3
0
10 / 59 / 21
Регистрация: 12.03.2017
Сообщений: 514
19.02.2018, 19:26  [ТС]
мне нужна программа
0
 Аватар для Wi0M
395 / 123 / 48
Регистрация: 26.10.2013
Сообщений: 734
19.02.2018, 19:27
а ты сам попробуй написать) я смотрю ты стопку задач выдернул где то и нас решил попросить их решить) чтобы потом называть себя программистом))
0
10 / 59 / 21
Регистрация: 12.03.2017
Сообщений: 514
19.02.2018, 19:29  [ТС]
Если не будешь помогать иди в пень!
0
 Аватар для Wi0M
395 / 123 / 48
Регистрация: 26.10.2013
Сообщений: 734
19.02.2018, 19:31
у тебя поэтому карма отрицательная? помогать? могу помочь. вот только помощь это когда ты делаешь что то) кроме обновления своих топиков в ожидании готового решения) Тем более ты сам сказал "Давайте напишем" т.е. проблемы у тебя нет. ты просишь коллективно написать код) я и начал) ты следующий)) парное программирование)
1
1741 / 913 / 480
Регистрация: 05.12.2013
Сообщений: 3,074
19.02.2018, 19:37
Цитата Сообщение от Pavlin234 Посмотреть сообщение
По ссылке доступна разделенная на слова и сохраненная в виде списка книга «Путешествия Гулливера» Джонатана Свифта (файл swift.py)
Прикрепи этот файл
0
10 / 59 / 21
Регистрация: 12.03.2017
Сообщений: 514
19.02.2018, 19:43  [ТС]
anytask.s3.yandex.net/materials/26/swift.py
0
1741 / 913 / 480
Регистрация: 05.12.2013
Сообщений: 3,074
19.02.2018, 21:51
Слов 99543, уникальных 20004

Для каждого уникального слова надо получить все индексы вхождения и слова индекс+1, у меня на довольно слабом ноутбуке найти один индекс для каждого уникального слова занимает 40 сек, как это оптимизировать?
0
10 / 59 / 21
Регистрация: 12.03.2017
Сообщений: 514
21.02.2018, 15:06  [ТС]
Хоть кто-нибудь!
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
21.02.2018, 17:46
Цитата Сообщение от ТабуретY Посмотреть сообщение
Для каждого уникального слова надо получить все индексы вхождения и слова индекс+1
Обычно делают итерацию по биграммам
Python
1
2
3
4
def bigrams(tokens):
    "s -> (s0,s1), (s1,s2), (s2, s3), ..."
    for tu in zip(tokens[:],tokens[1:]):
        yield tu
В цикле распихать биграммы в словарь (defaultdict(list) самое то) вида
Python
1
collocations[first_word]=[second_word1,second_word2,...]
Для генерации выбираем рандомом первое слово из списка collocations.keys() (из words нельзя, если мы делали проверку на пунктуацию и слов стало меньше).
Затем заходим в collocations и уже из списка seconds_words выбирает рандомом второе слово.
Хотя тут вариантов как подбирать слова больше чем один. Это самый примитивный.
----------------------------
Результат:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
if __name__ == "__main__":
    print(len(words))       # 99543
    print(len(set(words)))  # 20004
    collocations = set_collocations(words) # 15878
    print(len(collocations))
    #pprint(collocations['я'])
    """
    ['был',
    'пробыл',
    'получал',
    'провел',
    'тратил',
    'всегда',
    'возвратился',
    'изучал',
    'прослужил',
    'решил',
    'снял',
    'решил',
    'был',
    'посвящал',
    'перебрался',
    'принял',
    'поплыл',
    'часто',
    'совсем',
    'почувствовал'
    ....]
    """
    words = list(collocations.keys())
    print(generator_text(words,sentences=10,max_size_sentence=10))
Code
1
2
3
4
5
6
7
8
    Упомянул здесь суд приговаривает удовольствию всех королевским столом тою же обломок в предоставив кошелек доблести и. 
    Буксируют по более доверить считал его. Телескопы не узкие полоски добытую грабежом ржать друг цепь с собирает большой подвигался я участие принимали. 
    Отбывавших в пламени расположенных. Посылать молодых сверху и. 
    Превратилось в хорошее расположение наудачу и подобный недостаток соли в исторических сочинений пара начала страшно сдавил вызывали удивление ручательством за. 
    Требуемое на учреждениях справедливость целомудрие содомитам набрать в кулак несколько пособников порока составит вторую башня эта. 
    Шляпа получила оставляют место приложением печати приходил учитель. 
    Пятерым или сюда согласно посылает свои сомкнутыми рядами далекому монарху укажу на видел в прочность нитям сенаторов служить повален дождем. 
    Отвратительный их порциями доставляло предупреждены за надевал рано высеченными из музыкальными инструментами громкой славой натянутом канате.
2
1741 / 913 / 480
Регистрация: 05.12.2013
Сообщений: 3,074
21.02.2018, 18:18
Garry Galler, 0,4 секунды на составление словаря, просто класс
0
10 / 59 / 21
Регистрация: 12.03.2017
Сообщений: 514
26.02.2018, 15:26  [ТС]
Можно полностью код!
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
26.02.2018, 18:10
Первая часть
Вторая часть:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
def set_collocations(words):        
    # убираем пунктуацию
    words = list(filter(lambda x: x not in string.punctuation,words))
    #words = list(filter(lambda x: x != '.',words))
    # создаем словарь из всех уникальных слов приведенных к нижнему регистру
    collocations = defaultdict(list)
    for bg in bigrams(words):
        first,second = bg[0].lower(),bg[1].lower()
        # проверяем на повтор прилегающие слова
        if second not in collocations[first]:
            # избегаем совпадения первого и второго слова
            if second != first:
                collocations[first].append(second)
            
    return collocations
Ну а третью - функцию generator_text - изволь придумать сам.
-------------------------------------
Забавные, однако, бредни получаются иногда даже у такого генератора:

Гнусные качества тела которые очень безобразны.
Тяготеют два страшных зла но высшие государственные советники за абсолютное господство.
Короли этого искусства законов.
Отчаянного положения я кратчайшим путем подкупа большинства сенаторов.
Инквизиции капитан отлично понимал назначения расчлененных отростков.
Стал поднимать глаза с пальца на бумаге линейкой.
Подданные соседнего поля в восхищении.
Распутница или главный секретарь как скоро.
Занималась со всеми предметами.
Пристрастилась к коронованным головам.
Скалят зубы все паруса.
Надеждами прогоняет страх.
1
10 / 59 / 21
Регистрация: 12.03.2017
Сообщений: 514
26.02.2018, 20:08  [ТС]
мне нужен код и всё
0
10 / 59 / 21
Регистрация: 12.03.2017
Сообщений: 514
28.02.2018, 20:18  [ТС]
мне нужен код и всё
0
0 / 0 / 0
Регистрация: 24.04.2018
Сообщений: 5
24.04.2018, 13:20
как можно заказать ?

Добавлено через 2 минуты
Garry Galler, как можно сделать заказ ?
0
67 / 64 / 3
Регистрация: 02.11.2019
Сообщений: 227
18.02.2020, 16:54
Так сложно помочь человеку что ли!?

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
from random import choice, sample
from string import punctuation
from swift import words
s = words
 
def generatetext():
    global s
    s1 = list(filter(lambda x: x not in punctuation, s))
    s2 = ((' '.join((sample(s1, choice(range(5, 20)))))).lower()).split()
    for i in s2:
        s2.insert(0, i[0].upper() + i[1:])
        break
    s2.remove(s2[1])
    for i in s2:
        if s2.count(i) != 1:
            del s2[' '.join(s2).rfind(i)]
    return ' '.join(s2) + '.'
 
 
def main():
    a = int(input('Сколько строк бреда надо вывести? '))
    for i in range(a):
        flag = True
        while flag:
            try:
                print(generatetext())
                flag = False
            except IndexError:
                s = words
 
 
main()
0
18.02.2020, 17:35

Не по теме:

Цитата Сообщение от geargoose Посмотреть сообщение
Так сложно помочь человеку что ли!?
Халявщикам - да. Еще есть вопросы?
P.S. И не пости свой код во все мертвые темы.

0
 Аватар для Wolflind
127 / 107 / 31
Регистрация: 17.03.2016
Сообщений: 445
Записей в блоге: 1
19.02.2020, 15:41
Это называется "Универсальный код речей" или "рыбий текст" он генерируется из предложений а не слов
вот пример
Кликните здесь для просмотра всего текста
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
19.02.2020, 15:41
Помогаю со студенческими работами здесь

Сравнение двух текстов на схожесть по методу Шингла
Ругается в коде, не могу понять что не так сделано. Должно сравнивать 2 текста на схожесть по методу Шингла. # -*- coding: UTF-8 -*- ...

Баллирование текстов
Ребята, подскажите пожалуйста как сделать следующую задачу. Есть таблица text Ball магазин радиоуправляемый машина ...

Классификация текстов
Привет всем, подскажите пожалуйста, как и с чего начать для построения классификатора текста, то есть я я хочу разделить на два класса,...

Классификация текстов
Привет всем! Заинтересовался темой обработки текстов, а в частности классификацией/кластеризацией. В большинстве примеров решения...

Семантический анализ текстов
Есть задача: для заданной уязвимости из БДУ ФСТЭК найти соответствующие ей угрозы из этой же БДУ. Вопрос в принципе изначально стоит,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Ответ Создать тему
Новые блоги и статьи
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
влияние грибов на сукцессию
anaschu 26.01.2026
Бифуркационные изменения массы гриба происходят тогда, когда мы уменьшаем массу компоста в 10 раз, а скорость прироста биомассы уменьшаем в три раза. Скорость прироста биомассы может уменьшаться за. . .
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip" Извлеките архив и вы увидите. . .
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д. Сборка примера Скачайте. . .
Использование SDL3-callbacks вместо функции main() на Android, Desktop и WebAssembly
8Observer8 24.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru