Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.88/40: Рейтинг темы: голосов - 40, средняя оценка - 4.88
6 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398

Классификация текста по размеченным данным

22.07.2017, 22:15. Показов 8143. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый вечер. Коллеги, подскажите пожалуйста как быть. Нужно по размеченным данным файл 1.xlsx обучиться и на основе полученных данных написать тему для записей из файла 2.xlsx, сохранив результат в новый файл.
Сделал лемматизацию, привел к единой форме. Искал в интернете, но нет нигде с файлами именно, только по уже имеющимся данным в коде. Подскажите пожалуйста. Если, что можем и договориться skype: electro_haus
Вложения
Тип файла: xlsx 1.xlsx (8.9 Кб, 59 просмотров)
Тип файла: xlsx 2.xlsx (8.7 Кб, 42 просмотров)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
22.07.2017, 22:15
Ответы с готовыми решениями:

Классификация текста
Подскажите пожалуйста, как сделать классификацию текста на основе уже имеющихся текстов? Имеется: 1)несколько различных текстов,...

НС классификация текста. Признаки текста
Только начинаю изучать НС на python, есть самая простая модель. model = Sequential() model.add(Embedding(5000, 32, dropout=0.2)) ...

Классификация текста к определенному классу SVM
Здравствуйте, есть у кого-нибудь пример классификации текста к определенному классу методом опорных векторов? Или хорошая, а главное...

5
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
23.07.2017, 15:29
Лучший ответ Сообщение было отмечено studentrm как решение

Решение

Цитата Сообщение от studentrm Посмотреть сообщение
но нет нигде с файлами именно, только по уже имеющимся данным в коде
Да неправда. В любой книге по ML идут примеры со ссылками на учебные базы - базы, естественно, файловые.
Iris? Titanic?
----------------------------------

P.S. Как вы собираетесь эти данные классифицировать мне неизвестно. Оно, впрочем, и к лучшему.
1
6 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
23.07.2017, 19:53  [ТС]
Garry Galler, а можете назвать автора и наименование книги, пожалуйста? Их не нужно классифицировать, нужно определить класс тексту на оснлванти обучаемой выборки

Добавлено через 1 час 55 минут
Garry Galler, подскажите пожалуйста, как сохранить файл 2.xlsx , чтобы у него сохранился класс
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
23.07.2017, 20:48
Лучший ответ Сообщение было отмечено studentrm как решение

Решение

Цитата Сообщение от studentrm Посмотреть сообщение
Их не нужно классифицировать, нужно определить класс тексту на оснлванти обучаемой выбор
Класс документа определяется выбранным алгоритмом классификации... либо можно спросить у соседки бабы Мани. Тоже вариант.
Если спрашивать не у бабы Мани, то так:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
import os
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.feature_extraction.text import TfidfVectorizer
 
 
path = r'D:\INSTALL\Python3\PROJECTS'
df1 = pd.read_excel(os.path.join(path,"1.xlsx"))
 
X_data = df1['text'].values
X_data = X_data.tolist()
 
target = df1['class'].values
df2 = pd.read_excel(os.path.join(path,"2.xlsx"))
X_new = df2['text'].values
 
vectorizer = TfidfVectorizer()
X_data = vectorizer.fit_transform(X_data)
 
X_train, X_test,y_train,y_test = train_test_split(
                    X_data,          # обучающие данные
                    target,          # ответы
                    train_size=0.75, # 75 % на обучение, 25% - на тест точности 
                    random_state=10)
 
 
clf = KNeighborsClassifier(n_neighbors = 1) # K-ближайших соседей, в данном случае редуцированный вариант до 1 соседа вследствие мизерной выборки.
clf.fit(X_train, y_train)
# прогноз для тестового набора
y_pred = clf.predict(X_test) 
 
X_new_vec = vectorizer.transform([X_new[0]]) #
# прогноз для нового документа
X_new_pred = clf.predict(X_new_vec)[0]
print(X_new_pred) # метка класса - второй
Цитата Сообщение от studentrm Посмотреть сообщение
как сохранить файл 2.xlsx , чтобы у него сохранился класс
Это другая тема. Одна тема - один вопрос.
1
6 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
23.07.2017, 22:59  [ТС]
Garry Galler, а можно попросить у вас название книги про которую Вы писали ранее, пожалуйста?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
23.07.2017, 23:43
Книг на русском (в отличие от англ.) раз-два и обчелся. Их список я уж как-то выкладывал.
Немного дополню:

Сегаран,Тоби Программируем коллективный разум
Коэльо, Л. П., Ричард, В. Построение систем машинного обучения на языке Python
Силен Д., Мейсман А. Основы Data Science и Big Data. Python и наука о данных
Мюллер,А. Гвидо,C. Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными


№1 Классика жанра - примеры алгоритмов и все на чистом python.
№2 Немного теории, разбор основных алгоритмов, много примеров использования scikit-learn. Автор - большой гуру ML.
№3 Про ML только одна маленькая глава (чисто теоретическое введение), остальное про Data Science вообще. Для меня была полезна только глава 8 - глубокий анализ текста.
№4 Самое свежее (2016\17 г.), что есть на русском - относительное простое введение в интерфейс scikit-learn.

P.S. Есть, конечно, еще книги чисто теоретического характера по ML, без примеров на каком-либо ЯП, либо с примерами на Java или C#, но их я включать не стал.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
23.07.2017, 23:43
Помогаю со студенческими работами здесь

Классификация текста на основе нейронных сетей
Всем привет. У меня такая задача,на основе нейронных сетей написать прогу для классификации текста,с общей базой данных. Даже не знаю с...

Классификация текста с нейронной сетью. начало
здравствуйте только начинаю вникать (сильно не пинайте) отталкиваюсь отсюда https://habr.com/ru/post/332078/ - Классификация текста с...

Keras - классификация текста - оверфиттинг, и как улучшить модель
Я делаю нейронную сеть для классификации текста на русском языке по этим примерам - ...

Динамическая классификация на примере распознавания рукописного и поврежденного текста
Добрый день. При создании программы распознавания восточных текстов возникла задача динамической классификации. Практическое применение...

Какие операции можно применять к целочисленным данным? К вещественным данным? К символьным данным?
не знаю как тветить на этот вопрос. Думалось мне что что к каждому типу данных можно применить все операции Добавлено через 42...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Контроль корректности заполнения дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru