|
40 / 40 / 23
Регистрация: 26.01.2012
Сообщений: 317
|
|
Классификация текстов02.03.2019, 18:03. Показов 4060. Ответов 4
Привет всем!
Заинтересовался темой обработки текстов, а в частности классификацией/кластеризацией. В большинстве примеров решения подобных задач на вход классификатора (в реальном времени) подают какой-то стек текстов, обучают модель и затем подсовывают новый документ, чтобы предсказать к какой группе отнести текст/найти процент сходства. Перед постановкой вопроса попробую описать свою задачу: Есть набор текстов (допустим худ. литература), этих текстов достаточно много. По факту, этот материал можно использовать для модели "с учителем". Сама задача состоит в определении принадлежности новых документов к худ. литературе. (применять собираюсь sklearn) Как я понимаю, можно поступить как минимум двумя способами: Способ 1 Тупо кластеризовать какой-то значительный объем новых документов, чтобы (допустим с помощью k-means) выделить группы схожих текстов и потом уже в ручном режиме посмотреть эти кластеры, чтобы принять решение о группировке с уже имеющейся базой книг. Способ 2 Обучить модель на уже имеющихся книгах и на основе этого принимать решение для каждого нового документа/группы Как в таком случае обучить модель на большом объеме данных (более 1 млн. книг), сохранить конфигурацию этой модели и потом применять для новых документов? Что посоветуете? Может кто-то уже решал подобные задачи? Заранее спасибо!
0
|
|
| 02.03.2019, 18:03 | |
|
Ответы с готовыми решениями:
4
Классификация текстов Мультиклассовая классификация в xgboost Классификация элементов последовательности на N классов |
|
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
|
|||||
| 02.03.2019, 22:07 | |||||
|
Кластеризация - помимо других прикладных задач - решает и задачу, "а что делать, если денег заплатить китайцам нет". Т.е. она в принципе может решить как-то задачу разметки. Понятно, что качество будет хуже, чем при ручной разметке, но зато дешевле и быстрее. Иногда этого достаточно. Ну и интерпретировать результат придется самому. Оба подхода имеют право на существование. Что применять - выбирать вам. Примеры в сети имеются, можно погуглить. Но разделение на "художественную" и прочую литературу задача, конечно, надуманная и мало кому интересная. Гораздо чаще задачу используют,например, информационные агенства, которые уже давно научились автоматически относить текст к той или иной рубрике. При кажущейся несерьезности задача позволяет им (информагенствам) экономить существенные деньги на выполнении работы, которые ранее выполнялись целыми отделами людей. Ищите в этом направлении.
0
|
|||||
|
|
|||||||||
| 02.03.2019, 23:41 | |||||||||
Сообщение было отмечено monahoff как решение
РешениеХороший датасет размеченных данных (для классификации) способен, конечно, сильно повысить точность. Но вручную размечать довольно непросто. Хотя, можно и нарыть какой-нить интернет ресурс с книгами и выпарсить его - при наличии уже готовой разметки\рубрикации на сайте получаем размеченный датасет... Ну или все-таки нанять гастарбайтеров :-) как предложили выше. Вот у меня обученная по размеченным данным модель K-NN (ближайших соседей) определяла новые документы вот так:
Но если начать моей модели скармливать реально большое кол-во текстов для предсказания - думаю будет все гораздо хуже, так как обучающий датасет был игрушечным. Это, кстати, самая важная задача в ML - подготовить данные. В случае текстов обработка это создание bag of words: токенизация (вариантов как именно - масса), нормализация(канонизация токенов до нормальной словарной формы), удаление стоп-слов и прочего мусора, и, наконец, векторизация списков слов в вектора чиселок. Для миллиона документов, где каждый это целая книга, это весьма долгоиграющий процесс. А ведь вектор еще и в ОЗУ должен поместиться, чтобы модель смогла с ним работать. Хотя, какие-то модели в sklearn вроде позволяют работать с батчами данных (кроме алгоритмов которым нужна матрица попарных расстояний между объектами) - не пробовал пока.
1
|
|||||||||
|
40 / 40 / 23
Регистрация: 26.01.2012
Сообщений: 317
|
|||
| 02.03.2019, 23:52 [ТС] | |||
|
Добавлено через 9 минут
0
|
|||
|
|
||
| 03.03.2019, 00:04 | ||
|
0
|
||
| 03.03.2019, 00:04 | |
|
Помогаю со студенческими работами здесь
5
Классификация текста к определенному классу SVM VGG16. Классификация изображений (Cats vs. Dogs) Классификация периодов после изменения уровня данных Семантический анализ текстов
Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html
Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
|
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2.
Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
|
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях.
Задача: при копировании документа очищать определенные реквизиты и табличную. . .
|
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git
main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели
8ATzM_2aurI
|
|
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2.
Задача: запретить редактирование документа, если он открыт у другого пользователя.
/ / . . .
|
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои.
А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
|
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20%
kYBz3eJf3jQ
|
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
|