|
0 / 0 / 0
Регистрация: 05.11.2020
Сообщений: 14
|
|
Статистический анализ текстов, классификация текстов28.10.2021, 20:19. Показов 1129. Ответов 0
Доброго времени суток, дорогие знатоки!
Возникла передо мной задача, идеи по решению есть, но костыльные, хотелось бы узнать мнение экспертов и понять в правильном ли направлении я движусь. Задача: Даны две кучи текстовых документов, каждый из которых содержит в себе новостную статью. Две кучи это два класса, на которые я буду классифицировать тексты в будущем. Класс 1 = 1, класс 2 = 2. Необходимо построить классификатор, который на основе данных выборок будет обучаться и делать вывод о принадлежности поступающей на вход статьи к тому или иному классу. То есть я учу его на основе данных куч текстовиков, а потом на вход подаю другой документ, содержащий некий текст и он должен определить класс 1 это или 2. Преподаватель подсказал, что следует идти в направлении частоты появления ключевых слов того или иного класса в классифицируемом тексте. То есть взять 10 слов к примеру, самых значимых в классе 1 и 10 самых значимых и часто встречающихся в классе 2. Ввести какое-то пороговое значение, относительно которого классификатор будет принимать решение. Что уже сделано: Все статьи из отдельных TXT файлов перенесены в один большой DataFrame pandas, а затем сохранены в .cvs файлы. Два файла по каждому классу и олин общий. (на всякий случай) В этих файлах уже удалены стоп-слова и знаки препинания, а все слова преобразованы в единый вид: все буквы строчные. Получены облака слов. (файлы прикрепленные к теме). ВОПРОСЫ: Догадываюсь, что нужно определить значимость самых популярных N слов, определить статистику их появления в каждом классе, а может в обоих классах сразу. 1. В каждом отдельно или в обоих сразу? 2. Как получить статистику слов? (желательно хотя бы методы, библиотеки, теоретический материал на эту тему) 2.1. Методом регулярных выражений, может быть Наивный Байес, или К ближайших соседей? 3. Как лучше провести анализ входного текста и каким методом? 4. Какие советы могут дать опытные программисты в этой теме? Буду рад хорошей литературе. НАДЕЮСЬ НА ВАШУ ПОМОЩЬ, УВЕРЕН МНОГИЕ УЖЕ СТАЛКИВАЛИСЬ С ТАКОЙ ЗАДАЧЕЙ! СПАСИБО ЗА ВНИМАНИЕ И ПОНИМАНИЕ!
0
|
|
| 28.10.2021, 20:19 | |
|
Ответы с готовыми решениями:
0
Создать программу декодирования текстов Декодирование текстов, записанных латинскими и кириллическими буквами зашифрованными методом Цезаря Кодирование и декодирование методом Цезаря со смещением букв на k позиций текстов, записанных латинскими буквами |
| 28.10.2021, 20:19 | |
|
Помогаю со студенческими работами здесь
1
Чтение и запись "матричных" текстов Классификация текстов
Семантический анализ текстов Генерация текстов Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
|
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога
Финальные проекты на Си и на C++:
hello-sdl3-c. zip
hello-sdl3-cpp. zip
Результат:
|
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога
MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
|
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд.
Даже если у вас. . .
|
|
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает
монорепозиторий в котором находятся все исходники.
При создании нового решения, мы просто добавляем нужные проекты
и имеем. . .
|
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение:
В этой книге («Подход, основанный на вариантах использования») Ивар утверждает,
что архитектура программного обеспечения — это
структуры,. . .
|
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога
Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
|
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога
Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip
На первой гифке отладочные линии отключены, а на второй включены:. . .
|