Форум программистов, компьютерный форум, киберфорум
Matlab
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.57/21: Рейтинг темы: голосов - 21, средняя оценка - 4.57
0 / 0 / 0
Регистрация: 10.06.2015
Сообщений: 2

Классификация текста на основе нейронных сетей

10.06.2015, 11:28. Показов 4025. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет. У меня такая задача,на основе нейронных сетей написать прогу для классификации текста,с общей базой данных. Даже не знаю с чего начать
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
10.06.2015, 11:28
Ответы с готовыми решениями:

Распознавание личности по голосу (на основе нейронных сетей)
Такая задач. Записали фонетически сбалансированный текст. (несколько человек) Разделили его на фонемы. Написали программу, которая будет...

Создание программного обеспечения для обработки изображений на базе нейронных сетей
Доброго времени суток! Пишу дипломную работу на данную тему, до этого с MATLAB не работала и про нейронные сети тоже особо ничего не...

Классификация на основе решающих списков
День добрый. Вопрос вот в чем, никто не встречал может где-то реализацию алгоритма классификации на основе решающих списков в среде Matlab?...

7
2642 / 1653 / 267
Регистрация: 19.02.2010
Сообщений: 4,375
14.06.2015, 22:22
По корпусу текстов строите словарь (как минимум, выкидывая при этом ненужные так называемые стоп-слова (союзы, предлоги,... - их список для разных языков есть), а как максимум - нормализуя окончания (т.е. ликвидируя множественность времён, падежей,...)). В общем, в словаре получается/остаётся несколько тысяч различных слов.

Затем каждый отдельный текст представляете в виде частотного словаря. Длина вектора всегда (для всех текстов) будет одинаковой - по числу позиций в общем словаре. Каждая компонента вектора - частота соотв. слова среди всех слов этого текста.

Затем эти длинные числовые вектора - и классифицируете (с учителем или без) хоть нейронкой, хоть любым иным статистическим алгоритмом классификации или кластеризации.

Т.е. надо перейти от текстов к векторам чисел, и, при этом, векторам одинаковой для всех текстов длины.
0
319 / 258 / 30
Регистрация: 30.03.2013
Сообщений: 755
15.06.2015, 19:11
VTsaregorodtsev, а как этот числовой вектор характеризует текст ?
Он позволяет его классифицировать только по частоте использования тех или иных слов.
Но к смыслу текста мы как приближаемся ?

Я такую задачу практически ни разу не решал, мне просто интересно

Можно же представить себе два текста, вектор у которых будет совпадать до полной идентичности, но один будет осмысленным, а второй будет случайной перестановкой слов из первого текста, и как любой случайный набор смысла особого иметь не будет ... но мы по совпадению вектора вынуждены будем их признать близкими друг другу
0
0 / 0 / 0
Регистрация: 10.06.2015
Сообщений: 2
16.06.2015, 08:24  [ТС]
Согласен у меня так задача еще сложнее,надо классифицировать текст на плохой и хороший
0
319 / 258 / 30
Регистрация: 30.03.2013
Сообщений: 755
16.06.2015, 11:25
посмотрите тут, может пригодиться
http://stackoverflow.com/quest... aive-bayes

Добавлено через 17 минут
http://openclassroom.stanford.... 7/ex7.html
http://www.csie.ntu.edu.tw/~cjlin/libsvm/#download

Добавлено через 4 минуты
https://sites.google.com/site/... svm_matlab
0
533 / 438 / 47
Регистрация: 17.07.2013
Сообщений: 2,236
16.06.2015, 19:12
Может это:
Character Recognition Using Neural Networks
http://www.mathworks.com/matla... l-networks
0
2642 / 1653 / 267
Регистрация: 19.02.2010
Сообщений: 4,375
21.06.2015, 22:17
Цитата Сообщение от sergsh Посмотреть сообщение
а как этот числовой вектор характеризует текст ?
Он позволяет его классифицировать только по частоте использования тех или иных слов.
Но к смыслу текста мы как приближаемся ?
На "нормальных"-естественных текстах - тематика отлично ловится.
Новости хорошо рубрицируются по темам, патенты,...

В качестве примера см картинку4 в известной статье http://www.cs.toronto.edu/~hinton/science.pdf - там именно многомерные вектора частотных словарей визуализировались в 2мерном пространстве (новым методом нелинейного проецирования). Видно, что разные темы - это разные "лепестки" картинки4С (а вот линейному проецированию - методу LSA - не удаётся в двумерном пространстве проявить разделение тематик).
В статье пишут именно "We represented each of 804,414 newswire stories as a vector of document-specific probabilities of the 2000 commonest word stems". Т.е. каждая из новостей - вектор частот встречаемости слов в этой самой новости, а словарь взятых для анализа слов - наиболее общий по всему корпусу.

Что касается случайных перестановок слов и т.д. - повышайте размерность словаря включением двоек слов, например. Тогда ситуации словосочетаний "А В" и "В А" будут различаться. Я же не зря говорил о выкидывании стоп-слов и о нормализации - чтобы однословный словарь стал поменьше и можно было при необходимости добавить в него двойки.
0
319 / 258 / 30
Регистрация: 30.03.2013
Сообщений: 755
22.06.2015, 20:55
В том то и дело, что тематика ловится одинаково и на нормальных осмысленных текстах, и на случайных наборах слов. И пары слов не сильно помогут. Можно представить себе программу, которая будет генерировать случайные тексты с заданными рубриками, которые для человека будут совершенно бессмысленными.
Используя массово такую программу и заваливая дальние углы интернета такими "текстами", можно вполне себе манипулировать вашим классификатором новостей и сильно вводить его в заблуждение.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
22.06.2015, 20:55
Помогаю со студенческими работами здесь

Тема нейронных сетей
Здравствуйте, так как, я сразу написал, что тема будет по нейронным сетям, надеюсь на помощь тех, кто шарит. Дело в том, что после...

Комбинирование нейронных сетей
Здравствуйте! Подскажите, пожалуйста, можно ли скомбинировать: 1. две нейронные сети, например, сеть Кохонена и Хопфилда 2....

Применимость нейронных сетей
Здравствуйте! Решаю по работы одну задачу и решил попробовать, если это вообще возможно использовать нейронную сеть, но т.к. в теории...

Примеры нейронных сетей
Всем доброго времени суток, подскажите примеры нейронных сетей на ВБ, есть ли они вообще, ну или приведите пример как это можно...

Реализация нейронных сетей на лисп
Привет. Помогите с лиспом. нужно реализовать математический нейрон. Число входов = 3 Функция активации = пороговая.


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Работа со звуком через SDL3_mixer
8Observer8 08.02.2026
Содержание блога Пошагово создадим проект для загрузки звукового файла и воспроизведения звука с помощью библиотеки SDL3_mixer. Звук будет воспроизводиться по клику мышки по холсту на Desktop и по. . .
SDL3 для Web (WebAssembly): Основы отладки веб-приложений на SDL3 по USB и Wi-Fi, запущенных в браузере мобильных устройств
8Observer8 07.02.2026
Содержание блога Браузер Chrome имеет средства для отладки мобильных веб-приложений по USB. В этой пошаговой инструкции ограничимся работой с консолью. Вывод в консоль - это часть процесса. . .
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru