Форум программистов, компьютерный форум, киберфорум
Python: Решение задач
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
0 / 0 / 0
Регистрация: 05.11.2020
Сообщений: 14

Статистический анализ текстов, классификация текстов

28.10.2021, 20:19. Показов 1129. Ответов 0

Студворк — интернет-сервис помощи студентам
Доброго времени суток, дорогие знатоки!
Возникла передо мной задача, идеи по решению есть, но костыльные, хотелось бы узнать мнение экспертов и понять в правильном ли направлении я движусь.
Задача:
Даны две кучи текстовых документов, каждый из которых содержит в себе новостную статью. Две кучи это два класса, на которые я буду классифицировать тексты в будущем. Класс 1 = 1, класс 2 = 2.
Необходимо построить классификатор, который на основе данных выборок будет обучаться и делать вывод о принадлежности поступающей на вход статьи к тому или иному классу. То есть я учу его на основе данных куч текстовиков, а потом на вход подаю другой документ, содержащий некий текст и он должен определить класс 1 это или 2.
Преподаватель подсказал, что следует идти в направлении частоты появления ключевых слов того или иного класса в классифицируемом тексте. То есть взять 10 слов к примеру, самых значимых в классе 1 и 10 самых значимых и часто встречающихся в классе 2. Ввести какое-то пороговое значение, относительно которого классификатор будет принимать решение.
Что уже сделано:
Все статьи из отдельных TXT файлов перенесены в один большой DataFrame pandas, а затем сохранены в .cvs файлы. Два файла по каждому классу и олин общий. (на всякий случай) В этих файлах уже удалены стоп-слова и знаки препинания, а все слова преобразованы в единый вид: все буквы строчные. Получены облака слов. (файлы прикрепленные к теме).
ВОПРОСЫ:
Догадываюсь, что нужно определить значимость самых популярных N слов, определить статистику их появления в каждом классе, а может в обоих классах сразу.
1. В каждом отдельно или в обоих сразу?
2. Как получить статистику слов? (желательно хотя бы методы, библиотеки, теоретический материал на эту тему)
2.1. Методом регулярных выражений, может быть Наивный Байес, или К ближайших соседей?
3. Как лучше провести анализ входного текста и каким методом?
4. Какие советы могут дать опытные программисты в этой теме? Буду рад хорошей литературе.

НАДЕЮСЬ НА ВАШУ ПОМОЩЬ, УВЕРЕН МНОГИЕ УЖЕ СТАЛКИВАЛИСЬ С ТАКОЙ ЗАДАЧЕЙ!
СПАСИБО ЗА ВНИМАНИЕ И ПОНИМАНИЕ!
Миниатюры
Статистический анализ текстов, классификация текстов   Статистический анализ текстов, классификация текстов  
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
28.10.2021, 20:19
Ответы с готовыми решениями:

Создать программу декодирования текстов
Создать программу декодирования текстов, записанных латинскими буквами, которые были зашифрованы методом Цезаря со смещением на одну...

Декодирование текстов, записанных латинскими и кириллическими буквами зашифрованными методом Цезаря
Дано целое число k – ключ шифрования. Значение k вводится с клавиатуры. Создать программу декодирования текстов, записанных латинскими и...

Кодирование и декодирование методом Цезаря со смещением букв на k позиций текстов, записанных латинскими буквами
Дано целое число k – ключ шифрования. Значение k вводится с клавиатуры. Создать программу кодирования и декодирования методом Цезаря со...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
28.10.2021, 20:19
Помогаю со студенческими работами здесь

Чтение и запись "матричных" текстов
Нужна помощь с решением данной задачки, не могу понять как это реализовать, так как только изучаю python Назовём матричным текстом -...

Классификация текстов
Привет всем, подскажите пожалуйста, как и с чего начать для построения классификатора текста, то есть я я хочу разделить на два класса,...

Классификация текстов
Привет всем! Заинтересовался темой обработки текстов, а в частности классификацией/кластеризацией. В большинстве примеров решения...

Семантический анализ текстов
Есть задача: для заданной уязвимости из БДУ ФСТЭК найти соответствующие ей угрозы из этой же БДУ. Вопрос в принципе изначально стоит,...

Генерация текстов
Сервис Яндекс.Рефераты (https://yandex.ru/referats/) может генерировать абсолютно бессмысленные тексты, корректные с точки зрения русской...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru