Форум программистов, компьютерный форум, киберфорум
Python: Научные вычисления
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/8: Рейтинг темы: голосов - 8, средняя оценка - 4.75
-28 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
1

Создание исходного файла vowpal wabbit

29.04.2017, 12:09. Показов 1569. Ответов 10
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Всем добрый день. Подскажите пожалуйста как можно привести исходный файл (test.zip (6.8 Кб)) к необходимому ( lectures.zip (557 байт))

Также, можете подсказать пожалуйста, как лемматизировать данные при помощи ПО https://tech.yandex.ru/mystem/?ncrnd=8864
Вложения
Тип файла: zip lectures.zip (557 байт, 3 просмотров)
Тип файла: zip test.zip (6.8 Кб, 3 просмотров)
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
29.04.2017, 12:09
Ответы с готовыми решениями:

Vowpal wabbit установка
Ubuntu 16, anaconda 3, jupyter notebook Надо поставить vowpal wabbit. Сделал как рекомендовали...

Разделение файла через потоки на три равные части и создание нового файла .txt из значений исходного
Есть задача "Создать новый файл из значений исходного, по правилу: третья часть содержимого...

Создание исходного файла программы
Здравствуйте уважаемые умы. Помогите пожалуйста выйти из затруднительного положения. Я познакомился...

Создание исходного и выходного файла, файлы последовательного доступа
Помогите с лабой, пожалуйста! Есть вот такой код: #include <stdio.h> #include <locale.h> #define...

10
Эксперт по компьютерным сетям
5898 / 3355 / 1035
Регистрация: 03.11.2009
Сообщений: 10,003
29.04.2017, 15:47 2
Цитата Сообщение от studentrm Посмотреть сообщение
Подскажите пожалуйста как можно привести исходный файл
xlsx можно прочитать с помощью модулей openpyxl, xlrd

при наличии xlrd, можно также использовать pandas:
Python
1
table = pd.read_excel('/path/to/test.xlsx')
Код
           ID                                            Text           Author
0  DD29471764  Укажите подробную информацию.\nДобрый день....  Капустина Т. А.
1  DD29471784  Укажите подробную информацию.\nДобрый день\...  Капустина Т. А.
2  DD30690772  Невозможно создать запрос на измения гибког...    Петрина О. Н.
3  DD30690823  за январь месяц не оплачен мой больничный, ...   Сидорова Н. С.
Цитата Сообщение от studentrm Посмотреть сообщение
Также, можете подсказать пожалуйста, как лемматизировать данные при помощи ПО
модули mystem, pymystem3
0
-28 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
29.04.2017, 21:43  [ТС] 3
Jabbson, модулю использовать отдельно. или же установить их в python.
Да я их прочту. при помощи able = pd.read_excel('/path/to/test.xlsx')

, но модель не принимает их на вход.
0
Эксперт по компьютерным сетям
5898 / 3355 / 1035
Регистрация: 03.11.2009
Сообщений: 10,003
29.04.2017, 21:45 4
А как вы их хотите использовать отдельно?
Цитата Сообщение от studentrm Посмотреть сообщение
но модель не принимает их на вход.
как Вы думаете, что я дальше спрошу, получив такое утверждение?
0
-28 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
29.04.2017, 21:51  [ТС] 5
Jabbson, его можно скачать как отдельный exe. Только ничего не происходит дальше....работал по инструкции
0
Эксперт по компьютерным сетям
5898 / 3355 / 1035
Регистрация: 03.11.2009
Сообщений: 10,003
29.04.2017, 21:58 6
Цитата Сообщение от studentrm Посмотреть сообщение
его можно скачать
кого его?
0
-28 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
29.04.2017, 22:03  [ТС] 7
Jabbson, https://tech.yandex.ru/mystem/?ncrnd=747
0
Эксперт по компьютерным сетям
5898 / 3355 / 1035
Регистрация: 03.11.2009
Сообщений: 10,003
29.04.2017, 22:04 8
как это связано с питоном?
0
Эксперт Python
5418 / 3842 / 1214
Регистрация: 28.10.2013
Сообщений: 9,554
Записей в блоге: 1
30.04.2017, 02:05 9
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
from pymystem3 import Mystem
import re
from collections import defaultdict
from pprint import pprint
 
text="""  Все счастливые семьи похожи друг на друга, каждая  несчастливая  семья
несчастлива по-своему.
  Все смешалось в доме Облонских. Жена узнала, что муж  был  в  связи  с
бывшею в их доме француженкою-гувернанткой, и объявила мужу, что не  может
жить с ним в одном доме. Положение это продолжалось уже третий  день
и мучительно чувствовалось и самими супругами, и всеми членами семьи,  и
домочадцами. Все члены семьи и домочадцы чувствовали, что нет  смысла  в
их сожительстве и что на каждом постоялом дворе случайно сошедшиеся люди
более связаны между собой, чем они, члены семьи и  домочадцы  Облонских.
Жена не выходила из своих комнат, мужа третий день не  было  дома.  Дети
бегали по всему дому, как потерянные; англичанка поссорилась с экономкой
и написала записку приятельнице, прося приискать ей новое  место;  повар
ушел еще вчера со двора, во время обеда; черная кухарка и кучер  просили
расчета.
"""
 
 
"""
A       прилагательное
ADV     наречие
ADVPRO  местоименное наречие
ANUM    числительное-прилагательное
APRO    местоимение-прилагательное
COM     часть композита - сложного слова
CONJ    союз
INTJ    междометие
NUM     числительное
PART    частица
PR      предлог
S       существительное
SPRO    местоимение-существительное
V       глагол
"""
#-------------------------------
 
pattern = re.compile(r',|=')
m = Mystem()            
dd = defaultdict(set)
lemmas = m.analyze(text)
 
# на выходе список словарей вида:  
"""
{
'analysis': [{
    'gr': 'V,несов,пе=прош,мн,изъяв', 
    'lex': 'просить'}
    ],
'text': 'просили'
},
"""
#lemmas = m.lemmatize(text) # простой список нормализованных форм всех слова текста; разделители слов из текста автоматически не удаляются
pprint(lemmas) 
 
for data in lemmas:
    analysis = data.get('analysis')
    if not analysis: continue
    data = analysis[0]
    lemma = data['lex']  # извлекаем лексему
    part = pattern.split(data['gr'])[0] # извлекаем название части речи
    dd[part].add(lemma) # каждую лексему сохраняем в словаре вида {часть_речи: set([lexema,lexema,...])}
 
pprint(dd)
Устанавливается ли mystem.exe вместе с модулем или нет уже не помню: у меня он находится по двум путям - в pymystem3 и C:\Users\Пользователь\.local\bin.

Юзается похоже тот, который находится по пути в константе pymystem3.constants.MYSTEM_DIR, либо путь можно указать в конструкторе Mystem().
0
-28 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
30.04.2017, 02:05  [ТС] 10
Garry Galler, а если текст разделен на строки ( БД вида id | text) тогда как?
0
Эксперт Python
5418 / 3842 / 1214
Регистрация: 28.10.2013
Сообщений: 9,554
Записей в блоге: 1
30.04.2017, 02:22 11
Mystem понимает только raw text. Это бинарник, а не библиотека.
Поэтому в python биндинге wrapper'е pymystem3 к mystem.exe указано, что input параметр имеет тип str:
Код
analyze(text)[source]¶
Make morphology analysis for a text.

Parameters:	text (str) – text to analyze
Returns:	result of morphology analysis.
Return type:	dict
lemmatize(text)[source]
Make morphology analysis for a text and return list of lemmas.

Parameters:	text (str) – text to analyze
Returns:	list of lemmas
Return type:	list
И в доках на яндексе тоже нет ничего, чтобы указывало, что он может принимать особым образом форматированный текст или объекты типы списков и т.д.
Поэтому текст ему нужно скармливать в виде одной большой строки.

Добавлено через 9 минут
Проще говоря, либо самостоятельно формируйте текст нужного содержания очищенный от ненужных символов, либо отдавайте как есть целиком - он его сам токенизирует и выдаст список слов\список словарей с нужным разбором. А далее уже что и как вы будет выдирать из полученных данных - это уже вам решать.
0
30.04.2017, 02:22
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
30.04.2017, 02:22
Помогаю со студенческими работами здесь

Автоматическое создание исходного файла и проверка есть ли в нём данные
Есть у меня программа работающая с файлами: #include<iostream> #include<math.h> #include<locale>...

Ассемблерная вставка - Просмотр исходного файла, а в случае его отсутствия создание и ввод текста
В общем, пишу программу, с ассемблерными вставками. И возникли проблемы, так как ассемблер мы очень...

Как в Visual Studio 2015 настроить автоматическое создание шапки при создании исходного файла С++
Пример #include <iostream> #include <windows.h> #include <math.h> #include <cmath> using...

Создание и обработка файлов. Записать в выходной файл число, равное количеству слов в строке исходного файла
Ребят помогите решить пожалуйста Создайте текстовый файл. Создайте файл целых чисел, в котором...

Из исходного текстового файла все повторяющиеся слова переписать в другой файл удалив их из исходного
из исходного текстового файла все повторяющиеся слова переписать в другой файл удалив их из...

Составить программу формирования рабочего файла(бинарного файла из структур) на основе исходного текстового файла
а)Составить программу формирования рабочего файла(бинарного файла из структур) на основе исходного...

Составить программу формирования рабочего файла(бинарного файла из структур) на основе исходного текстового файла
(а)Составить программу формирования рабочего файла(бинарного файла из структур) на основе исходного...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
11
Ответ Создать тему
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru