|
0 / 0 / 0
Регистрация: 10.06.2015
Сообщений: 2
|
|
Классификация текста на основе нейронных сетей10.06.2015, 11:28. Показов 4025. Ответов 7
Метки нет (Все метки)
Всем привет. У меня такая задача,на основе нейронных сетей написать прогу для классификации текста,с общей базой данных. Даже не знаю с чего начать
0
|
|
| 10.06.2015, 11:28 | |
|
Ответы с готовыми решениями:
7
Распознавание личности по голосу (на основе нейронных сетей) Создание программного обеспечения для обработки изображений на базе нейронных сетей Классификация на основе решающих списков |
|
2642 / 1653 / 267
Регистрация: 19.02.2010
Сообщений: 4,375
|
|
| 14.06.2015, 22:22 | |
|
По корпусу текстов строите словарь (как минимум, выкидывая при этом ненужные так называемые стоп-слова (союзы, предлоги,... - их список для разных языков есть), а как максимум - нормализуя окончания (т.е. ликвидируя множественность времён, падежей,...)). В общем, в словаре получается/остаётся несколько тысяч различных слов.
Затем каждый отдельный текст представляете в виде частотного словаря. Длина вектора всегда (для всех текстов) будет одинаковой - по числу позиций в общем словаре. Каждая компонента вектора - частота соотв. слова среди всех слов этого текста. Затем эти длинные числовые вектора - и классифицируете (с учителем или без) хоть нейронкой, хоть любым иным статистическим алгоритмом классификации или кластеризации. Т.е. надо перейти от текстов к векторам чисел, и, при этом, векторам одинаковой для всех текстов длины.
0
|
|
|
319 / 258 / 30
Регистрация: 30.03.2013
Сообщений: 755
|
|
| 15.06.2015, 19:11 | |
|
VTsaregorodtsev, а как этот числовой вектор характеризует текст ?
Он позволяет его классифицировать только по частоте использования тех или иных слов. Но к смыслу текста мы как приближаемся ? Я такую задачу практически ни разу не решал, мне просто интересно Можно же представить себе два текста, вектор у которых будет совпадать до полной идентичности, но один будет осмысленным, а второй будет случайной перестановкой слов из первого текста, и как любой случайный набор смысла особого иметь не будет ... но мы по совпадению вектора вынуждены будем их признать близкими друг другу
0
|
|
|
0 / 0 / 0
Регистрация: 10.06.2015
Сообщений: 2
|
|
| 16.06.2015, 08:24 [ТС] | |
|
Согласен у меня так задача еще сложнее,надо классифицировать текст на плохой и хороший
0
|
|
|
319 / 258 / 30
Регистрация: 30.03.2013
Сообщений: 755
|
|
| 16.06.2015, 11:25 | |
|
посмотрите тут, может пригодиться
http://stackoverflow.com/quest... aive-bayes Добавлено через 17 минут http://openclassroom.stanford.... 7/ex7.html http://www.csie.ntu.edu.tw/~cjlin/libsvm/#download Добавлено через 4 минуты https://sites.google.com/site/... svm_matlab
0
|
|
|
533 / 438 / 47
Регистрация: 17.07.2013
Сообщений: 2,236
|
|
| 16.06.2015, 19:12 | |
|
0
|
|
|
2642 / 1653 / 267
Регистрация: 19.02.2010
Сообщений: 4,375
|
||
| 21.06.2015, 22:17 | ||
|
Новости хорошо рубрицируются по темам, патенты,... В качестве примера см картинку4 в известной статье http://www.cs.toronto.edu/~hinton/science.pdf - там именно многомерные вектора частотных словарей визуализировались в 2мерном пространстве (новым методом нелинейного проецирования). Видно, что разные темы - это разные "лепестки" картинки4С (а вот линейному проецированию - методу LSA - не удаётся в двумерном пространстве проявить разделение тематик). В статье пишут именно "We represented each of 804,414 newswire stories as a vector of document-specific probabilities of the 2000 commonest word stems". Т.е. каждая из новостей - вектор частот встречаемости слов в этой самой новости, а словарь взятых для анализа слов - наиболее общий по всему корпусу. Что касается случайных перестановок слов и т.д. - повышайте размерность словаря включением двоек слов, например. Тогда ситуации словосочетаний "А В" и "В А" будут различаться. Я же не зря говорил о выкидывании стоп-слов и о нормализации - чтобы однословный словарь стал поменьше и можно было при необходимости добавить в него двойки.
0
|
||
|
319 / 258 / 30
Регистрация: 30.03.2013
Сообщений: 755
|
|
| 22.06.2015, 20:55 | |
|
В том то и дело, что тематика ловится одинаково и на нормальных осмысленных текстах, и на случайных наборах слов. И пары слов не сильно помогут. Можно представить себе программу, которая будет генерировать случайные тексты с заданными рубриками, которые для человека будут совершенно бессмысленными.
Используя массово такую программу и заваливая дальние углы интернета такими "текстами", можно вполне себе манипулировать вашим классификатором новостей и сильно вводить его в заблуждение.
0
|
|
| 22.06.2015, 20:55 | |
|
Помогаю со студенческими работами здесь
8
Тема нейронных сетей Комбинирование нейронных сетей Применимость нейронных сетей Примеры нейронных сетей Реализация нейронных сетей на лисп Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
SDL3 для Web (WebAssembly): Работа со звуком через SDL3_mixer
8Observer8 08.02.2026
Содержание блога
Пошагово создадим проект для загрузки звукового файла и воспроизведения звука с помощью библиотеки SDL3_mixer. Звук будет воспроизводиться по клику мышки по холсту на Desktop и по. . .
|
SDL3 для Web (WebAssembly): Основы отладки веб-приложений на SDL3 по USB и Wi-Fi, запущенных в браузере мобильных устройств
8Observer8 07.02.2026
Содержание блога
Браузер Chrome имеет средства для отладки мобильных веб-приложений по USB. В этой пошаговой инструкции ограничимся работой с консолью. Вывод в консоль - это часть процесса. . .
|
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога
Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
|
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
|
|
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога
В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
|
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога
Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
|
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога
Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
|
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога
Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
|