Классификация текста по размеченным данным

@studentrm · Регистрация: 13.12.2015

Студворк — интернет-сервис помощи студентам

Добрый вечер. Коллеги, подскажите пожалуйста как быть. Нужно по размеченным данным файл 1.xlsx обучиться и на основе полученных данных написать тему для записей из файла 2.xlsx, сохранив результат в новый файл.
Сделал лемматизацию, привел к единой форме. Искал в интернете, но нет нигде с файлами именно, только по уже имеющимся данным в коде. Подскажите пожалуйста. Если, что можем и договориться skype: electro_haus

@Garry Galler · 23.07.2017, 15:29

Сообщение от studentrm

но нет нигде с файлами именно, только по уже имеющимся данным в коде

Да неправда. В любой книге по ML идут примеры со ссылками на учебные базы - базы, естественно, файловые.
Iris? Titanic?
----------------------------------

Классификация текста по размеченным данным

P.S. Как вы собираетесь эти данные классифицировать мне неизвестно. Оно, впрочем, и к лучшему.

@studentrm · 23.07.2017, 19:53 **[ТС]**

Garry Galler, а можете назвать автора и наименование книги, пожалуйста? Их не нужно классифицировать, нужно определить класс тексту на оснлванти обучаемой выборки

Добавлено через 1 час 55 минут
Garry Galler, подскажите пожалуйста, как сохранить файл 2.xlsx , чтобы у него сохранился класс

@Garry Galler · 23.07.2017, 20:48

Сообщение от studentrm

Их не нужно классифицировать, нужно определить класс тексту на оснлванти обучаемой выбор

Класс документа определяется выбранным алгоритмом классификации... либо можно спросить у соседки бабы Мани. Тоже вариант.
Если спрашивать не у бабы Мани, то так:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
import os
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.feature_extraction.text import TfidfVectorizer
 
 
path = r'D:\INSTALL\Python3\PROJECTS'
df1 = pd.read_excel(os.path.join(path,"1.xlsx"))
 
X_data = df1['text'].values
X_data = X_data.tolist()
 
target = df1['class'].values
df2 = pd.read_excel(os.path.join(path,"2.xlsx"))
X_new = df2['text'].values
 
vectorizer = TfidfVectorizer()
X_data = vectorizer.fit_transform(X_data)
 
X_train, X_test,y_train,y_test = train_test_split(
                    X_data,          # обучающие данные
                    target,          # ответы
                    train_size=0.75, # 75 % на обучение, 25% - на тест точности 
                    random_state=10)
 
 
clf = KNeighborsClassifier(n_neighbors = 1) # K-ближайших соседей, в данном случае редуцированный вариант до 1 соседа вследствие мизерной выборки.
clf.fit(X_train, y_train)
# прогноз для тестового набора
y_pred = clf.predict(X_test) 
 
X_new_vec = vectorizer.transform([X_new[0]]) #
# прогноз для нового документа
X_new_pred = clf.predict(X_new_vec)[0]
print(X_new_pred) # метка класса - второй

Сообщение от studentrm

как сохранить файл 2.xlsx , чтобы у него сохранился класс

Это другая тема. Одна тема - один вопрос.

@studentrm · 23.07.2017, 22:59 **[ТС]**

Garry Galler, а можно попросить у вас название книги про которую Вы писали ранее, пожалуйста?

@Garry Galler · 23.07.2017, 23:43

Книг на русском (в отличие от англ.) раз-два и обчелся. Их список я уж как-то выкладывал.
Немного дополню:

Сегаран,Тоби	Программируем коллективный разум
Коэльо, Л. П., Ричард, В.	Построение систем машинного обучения на языке Python
Силен Д., Мейсман А.	Основы Data Science и Big Data. Python и наука о данных
Мюллер,А. Гвидо,C.	Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными

№1 Классика жанра - примеры алгоритмов и все на чистом python.
№2 Немного теории, разбор основных алгоритмов, много примеров использования scikit-learn. Автор - большой гуру ML.
№3 Про ML только одна маленькая глава (чисто теоретическое введение), остальное про Data Science вообще. Для меня была полезна только глава 8 - глубокий анализ текста.
№4 Самое свежее (2016\17 г.), что есть на русском - относительное простое введение в интерфейс scikit-learn.

P.S. Есть, конечно, еще книги чисто теоретического характера по ML, без примеров на каком-либо ЯП, либо с примерами на Java или C#, но их я включать не стал.

Новые блоги и статьи Все статьи Все блоги /
Контроль корректности заполнения дат в зависимости от значения перечислений Maks 12.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .	Архитектура слоя интернета для сервера-слоя. Hrethgir 11.04.2026 В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .	Подстановка значения реквизита справочника в табличную часть документа Maks 10.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .	Очистка реквизитов документа при копировании Maks 09.04.2026 Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий anaschu 08.04.2026 https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI	Блокировка документа от изменений, если он открыт у другого пользователя Maks 08.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .	Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка. Hrethgir 08.04.2026 Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .	Модель ЗдрввоСохранения 7: больше работников, больше ресурсов. anaschu 08.04.2026 работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ

Классификация текста по размеченным данным

Решение

Решение

@studentrm 6 / 6 / 1 Регистрация: 13.12.2015 Сообщений: 398
	23.07.2017, 19:53 [ТС]
	Garry Galler, а можете назвать автора и наименование книги, пожалуйста? Их не нужно классифицировать, нужно определить класс тексту на оснлванти обучаемой выборки Добавлено через 1 час 55 минут Garry Galler, подскажите пожалуйста, как сохранить файл 2.xlsx , чтобы у него сохранился класс 0

@studentrm 6 / 6 / 1 Регистрация: 13.12.2015 Сообщений: 398
	23.07.2017, 22:59 [ТС]
	Garry Galler, а можно попросить у вас название книги про которую Вы писали ранее, пожалуйста? 0