-28 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
|
|
1 | |
Создание исходного файла vowpal wabbit29.04.2017, 12:09. Показов 1569. Ответов 10
Метки нет (Все метки)
Всем добрый день. Подскажите пожалуйста как можно привести исходный файл (test.zip (6.8 Кб)) к необходимому ( lectures.zip (557 байт))
Также, можете подсказать пожалуйста, как лемматизировать данные при помощи ПО https://tech.yandex.ru/mystem/?ncrnd=8864
0
|
29.04.2017, 12:09 | |
Ответы с готовыми решениями:
10
Vowpal wabbit установка Разделение файла через потоки на три равные части и создание нового файла .txt из значений исходного Создание исходного файла программы Создание исходного и выходного файла, файлы последовательного доступа |
5898 / 3355 / 1035
Регистрация: 03.11.2009
Сообщений: 10,003
|
||||||
29.04.2017, 15:47 | 2 | |||||
xlsx можно прочитать с помощью модулей openpyxl, xlrd
при наличии xlrd, можно также использовать pandas:
Код
ID Text Author 0 DD29471764 Укажите подробную информацию.\nДобрый день.... Капустина Т. А. 1 DD29471784 Укажите подробную информацию.\nДобрый день\... Капустина Т. А. 2 DD30690772 Невозможно создать запрос на измения гибког... Петрина О. Н. 3 DD30690823 за январь месяц не оплачен мой больничный, ... Сидорова Н. С.
0
|
-28 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
|
|
29.04.2017, 21:43 [ТС] | 3 |
Jabbson, модулю использовать отдельно. или же установить их в python.
Да я их прочту. при помощи able = pd.read_excel('/path/to/test.xlsx') , но модель не принимает их на вход.
0
|
-28 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
|
|
29.04.2017, 21:51 [ТС] | 5 |
Jabbson, его можно скачать как отдельный exe. Только ничего не происходит дальше....работал по инструкции
0
|
-28 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
|
|
29.04.2017, 22:03 [ТС] | 7 |
0
|
30.04.2017, 02:05 | 9 | |||||
Юзается похоже тот, который находится по пути в константе pymystem3.constants.MYSTEM_DIR, либо путь можно указать в конструкторе Mystem().
0
|
-28 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
|
|
30.04.2017, 02:05 [ТС] | 10 |
Garry Galler, а если текст разделен на строки ( БД вида id | text) тогда как?
0
|
30.04.2017, 02:22 | 11 |
Mystem понимает только raw text. Это бинарник, а не библиотека.
Поэтому в python Код
analyze(text)[source]¶ Make morphology analysis for a text. Parameters: text (str) – text to analyze Returns: result of morphology analysis. Return type: dict lemmatize(text)[source] Make morphology analysis for a text and return list of lemmas. Parameters: text (str) – text to analyze Returns: list of lemmas Return type: list Поэтому текст ему нужно скармливать в виде одной большой строки. Добавлено через 9 минут Проще говоря, либо самостоятельно формируйте текст нужного содержания очищенный от ненужных символов, либо отдавайте как есть целиком - он его сам токенизирует и выдаст список слов\список словарей с нужным разбором. А далее уже что и как вы будет выдирать из полученных данных - это уже вам решать.
0
|
30.04.2017, 02:22 | |
30.04.2017, 02:22 | |
Помогаю со студенческими работами здесь
11
Автоматическое создание исходного файла и проверка есть ли в нём данные Ассемблерная вставка - Просмотр исходного файла, а в случае его отсутствия создание и ввод текста Как в Visual Studio 2015 настроить автоматическое создание шапки при создании исходного файла С++ Создание и обработка файлов. Записать в выходной файл число, равное количеству слов в строке исходного файла Из исходного текстового файла все повторяющиеся слова переписать в другой файл удалив их из исходного Составить программу формирования рабочего файла(бинарного файла из структур) на основе исходного текстового файла Составить программу формирования рабочего файла(бинарного файла из структур) на основе исходного текстового файла Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |