Форум программистов, компьютерный форум, киберфорум
Python: Научные вычисления
Войти
Регистрация
Восстановить пароль
Другие темы раздела
Python Выборка колонок их DataFrame https://www.cyberforum.ru/ python-science/ thread2578732.html
Здравствуйте. Имеется DataFrame который нужно разбить на 2-а до лечения и после, проблема состоит в том что колонки в dataframe чередуются (д/л, п/л,д/л,п/л), подскажите как это можно выполнить...
Python Выборка из массива координат xyz методом триангуляции Делоне
Добрый вечер господа сочувствующие! У кого был опыт выборки из массива координат(точек) типа xyz методом триангуляции Делоне для построение регулярной поверхности с известной ширеной базиса? Как это...
Архитектура нейронной сети для детекции черно-белых объектов Python
У меня есть подобные картинки: Требуется детектировать на них черные объекты (на этой картинке кругленькие, но бывают и чуть длиннее). Картинка такая, что спокойно её можно перевести в...
Python Фильтр Калмана Нужна помощь с использованием Фильтра Калмана в программе на Python. Если есть кто-то, кто разбирается, то я был бы признателен, если сможете направить меня на правильный путь https://www.cyberforum.ru/ python-science/ thread2572668.html
Python Как минимизировать такую функцию? https://www.cyberforum.ru/ python-science/ thread2572262.html
Функция def Phi(u, X): return -(1+u*X+u*X+u*X+u*X) Известно, что : 1) X...X находятся в промежутке 2) u,u,u,u >= 0 3) u+u+u+u = 1
Вычислить все биномиальные коэффициенты Python
Помогите решить задание. Для заданного n вычислить все биномиальные коэффициенты C(m,n), используя рекуррентное соотношение
Заданы действительные числа х, е. Вычислить с точн. до е, в параметр передать функцию определения очередного слагаемого Python
Заданы действительные числа, х, е(эпсилон). Вычислить с точностью до е, реализовать в виде функции вычисления суммы с заданой точностью, в какую как параметр передается функция определения очередного...
Python Замена максимальных елементов в диагоналях матрицы Всем привет! Есть код как найти эти елементы, но как их поменять местами??? def FindMaxElement(mat): n = len(mat) if (n == 0): return Firstmax = mat Secondmax = mat https://www.cyberforum.ru/ python-science/ thread2569772.html
Python При построении 2х графиков накладывается ylabel и title в Matplotlib https://www.cyberforum.ru/ python-science/ thread2569290.html
Добрый день! Буду краток, всё будет видно из примера. Недавно из Matlab начал, строить графики в python 3.8 с помощью Matplotlib. Возникла такая проблема: заголовок оси абсцисс накладывается на...
Python Преобразование Хафа в openCV На большой куче картинок надо детектировать дорожный знак. Использую функцию cv2.HoughCircles, результат более-менее, но хочу улучшить результат. Править имеющиеся параметры недостаточно. Как залезть... https://www.cyberforum.ru/ python-science/ thread2569241.html
Эксперт Python
4485 / 3270 / 1057
Регистрация: 28.10.2013
Сообщений: 8,406
Записей в блоге: 1
19.02.2020, 02:22 0

Нейросеть из книги

19.02.2020, 02:22. Показов 608. Ответов 10
Метки (Все метки)

Ответ

Цитата Сообщение от IRIP Посмотреть сообщение
Понять принцип создания и действия (работы) программы, способной разложить информацию на молекулы и пересобрать
в едином объеме
Чтобы понять принцип - нужно сначала понять свою задачу. Молекул в тексте нет. В тексте есть токены, слова, термины, леммы, энграммы, грамматические группы, коллокации, фразовые единства, предложения, абзацы и т.д.
-------------------------------------------------------------------
Вот, например, для своих задач я написал библиотеку, которая дает мне представление о тексте:

Python
1
2
3
4
5
6
7
8
9
10
11
# создаем корпус из документов или загружаем уже обработанные доки
source = os.path.abspath(os.path.join(nlptk.MODULEDIR,r'corpus\en'))
corpus = Corpus(Path(source,"*.txt"), prep, clean, filters)
 
texts = []
 
for text in corpus:
    texts.append(text)
 
# смотрим на объект корпуса    
print(repr(corpus))
Код
Corpus(
	names=['Austin Pride and Prejudice.txt', 'bronte_jane_txt.txt',...],
	ndocs=21,
	nwords=1927580,
	nlemmas=44991,
	nhapaxes=18047)
Python
1
2
# получаем обзор документов в корпусе
[(txt.filename,txt.nwords) for txt in texts]
Кликните здесь для просмотра всего текста
Код
[('Austin Pride and Prejudice.txt', 122447),
 ('bronte_jane_txt.txt', 186971),
 ('bronte_wuthering_txt.txt', 118794),
 ('doyle_the_adventures.txt', 105136),
 ('dreiser_sister.txt', 156304),
 ('Edgar Allan Poe The Cask of Amontillado.txt', 2335),
 ('Edgar Allan Poe The Masque of the Red Death.txt', 2419),
 ('Edgar Allan Poe The Tell-Tale Heart.txt', 2126),
 ('fitzgerald_great_gatsby_txt.txt', 48484),
 ('Franz Kafka - Metamorphosis.txt', 22335),
 ('John Steinbeck - Of Mice and Men.txt', 31025),
 ('kipling_jungle_book_txt.txt', 51737),
 ('london_white_txt.txt', 72830),
 ('stevenson_treasure_island_txt.txt', 69728),
 ('Stivenson_Fall-or-Dodge-in-Hell_RuLit_Me.txt', 316418),
 ('stoker_dracula_txt.txt', 161394),
 ('twain_tom_sawyer_txt.txt', 72935),
 ('walter_scott_ivanhoe_txt.txt', 194098),
 ('wells_invisible_man_txt.txt', 49693),
 ('wells_war_of_the_worlds_txt.txt', 60577),
 ('wilde_picture_of_dorian_gray_txt.txt', 79794)]


Python
1
2
#  выбираем конкретный текст
texts[3]
Код
Text(
	name='doyle_the_adventures',
	encoding='unknown',
	nsents=6810,
	nwords=105136,
	nlemmas=6627
)
Python
1
2
3
4
# узнаем в какие предложения входит слово crime
# trie это перфиксное дерево, которое у меня работает еще и индексом всех слов
occurrences = texts[3].trie('crime')
occurrences
Кликните здесь для просмотра всего текста
Код
[(27, 11),
 (448, 19),
 (702, 37),
 (703, 21),
 (1055, 2),
 (1290, 13),
 (1571, 18),
 (1630, 5),
 (1630, 7),
 (1688, 6),
 (1837, 21),
 (2301, 14),
 (2591, 23),
 (2948, 12),
 (2958, 56),
 (3270, 13),
 (3271, 1),
 (3351, 39),
 (3353, 1),
 (3357, 26),
 (3454, 19),
 (3528, 9),
 (3804, 23),
 (4325, 14),
 (4398, 12),
 (5895, 24),
 (6197, 10),
 (6203, 58),
 (6420, 24),
 (6423, 3),
 (6429, 58)]


Python
1
2
# получаем тексты предложений в которые входит искомое слово
[(nsent, texts[3].sents(nsent).raw) for nsent,_ in occurrences]
Код
[(27,
  'He was still as ever deeply attracted by the study of crime and occupied his immense faculties and extraordinary powers of observation in following out those clues and clearing up those mysteries which had been abandoned as hopeless by the official police'),
 (448,
  'The stage lost a fine actor even as science lost an acute reasoner when he became a spe******t in crime'),
 (702,
  'You have heard me remark that the strangest and most unique things are very often connected not with the larger but with the smaller crimes and occasionally indeed where there is room for doubt whether any positive crime has been committed'),
 (703,
  'As far as I have heard it is impossible for me to say whether the present case is an instance of crime or not but the course of events is certainly among the most singular that I have ever listened to'),
 (1055, 'A considerable crime is in contemplation'),
 ...
Python
1
2
3
# Можно получить частотные словари по любой части речи
verbs = texts[3].postags("VERB")
verbs
Код
FreqDist({'be': 4422, 'have': 2082, 'say': 603, 'do': 537, 'come': 340, 'see': 322, 'know': 267, 'go': 248, 'think': 236, 'take': 214, ...})
Python
1
2
# отсортировать по убыванию частоты
texts[3].postags("VERB", sort=-1)[:10]
Код
[('be', 4422),
 ('have', 2082),
 ('say', 603),
 ('do', 537),
 ('come', 340),
 ('see', 322),
 ('know', 267),
 ('go', 248),
 ('think', 236),
 ('take', 214)]

Python
1
2
# получить тегированное по частям речи представление предложения
texts[3].sents(1)
Код
TaggedSentence(
	'A⁄DT⁄A Scandal⁄NNP⁄Scandal in⁄IN⁄in Bohemia⁄NNP⁄Bohemia II⁄NNP⁄Ii',
	 n=1
)
И т.д. Библиотека имеет еще много возможностей, типа получения всех глаголов или всех существительных, разнообразные счетчики вхождений, нахождение слов начинающихся с определенного префикса, получение ngram, skipgram, ключевых слов, суммаризации текста и т.д.
Но для всего этого никакой нейросети вовсе не нужно. Всего лишь хорошее знание nltk и понимание базовых задач Natural Language Processing.
P.S. Само собой, отфильтрованый и трансформированный в соответствующую форму, результат работы библиотеки может служить и входом для какой-нибудь нейросети. Но это уже совсем другая история и совсем другие задачи...

Вернуться к обсуждению:
Нейросеть из книги
2
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
19.02.2020, 02:22
Готовые ответы и решения:

Сравнить ФИО из книги 1 и книги 2, и если совпадают, то в столбец А книги 1, подставить данные из столбца В книги 2
Добрый день! Подскажите, как сделать-есть 2 книги. Нужно сравнить фамилии из книги 1 и книги 2 и...

Описать структуру Bibliotec, содержащую следующие поля: автор книги, инвентарный номер книги, название книги
Описать структуру BIBLIOTEC содержащий следующие поля: автор книги , инвентарный номер книги ,...

Нейросеть
Народ, как подать данные на нейросеть если они текстового вида. Пишу программу которая должна...

Нейросеть
using System; using System.IO; using System.Runtime.InteropServices; namespace...

10
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2021, vBulletin Solutions, Inc.