Форум программистов, компьютерный форум, киберфорум
ИИ, нейросети, LLM, ML, Data Science, ИИ-агенты
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/6: Рейтинг темы: голосов - 6, средняя оценка - 4.67
0 / 0 / 0
Регистрация: 22.01.2019
Сообщений: 9

TF IDF словарь

26.11.2019, 18:31. Показов 1217. Ответов 6

Студворк — интернет-сервис помощи студентам
Коллеги, подскажите пожалуйста, каким способом реально отбросить хвосты наиболее употребимых и наименее употребимых слов в словаре имея TF IDF. Ну то есть как это математически, а еще лучше графически обосновать? Вот к примеру распределение Ципфа, как его трактовать, какими метриками пользоваться? Какие реальные практики есть?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
26.11.2019, 18:31
Ответы с готовыми решениями:

Понижение размерности tf-idf разреженной матрицы
Коллеги, подскажите, пожалуйста, на руках есть tf-idf спарс матрица большого размера. Как адекватно понизить ее размерность? То есть задача...

Определить различие текстов методом TF-IDF
помогите пожалуйста!! Задача такая: один текст на двух разных языках,с помощью онлайн переводчик (он есть написан на C#) надо перевести...

IDF SF 2008: Hynix выпускает DDR3-память рекордной емкости
Компания Hynix на проходящем форуме IDF 2008 официально представила свою новую разработку – модули оперативной памяти DDR3 R-DIMM,...

6
-12 / 4 / 0
Регистрация: 10.11.2019
Сообщений: 66
26.11.2019, 19:22
Лучше не стоит изменять формы слов так как они вам будут нужны такие как они есть, как времена и формы для ИИ, чтоб он мог выдавать и/или формулировать ответы. Наверное прийдётся писать правила вручную? Приспособив их под тот словарь который у вас есть?
0
0 / 0 / 0
Регистрация: 22.01.2019
Сообщений: 9
26.11.2019, 20:35  [ТС]
Вы не поняли, про хвосты я говорил имея в виду уже готовый словарь.
0
27 / 26 / 6
Регистрация: 02.02.2014
Сообщений: 96
26.11.2019, 20:49
Сколько можем себе позволить по памяти столько и оставляем?
0
0 / 0 / 0
Регистрация: 22.01.2019
Сообщений: 9
26.11.2019, 20:55  [ТС]
Цитата Сообщение от warhast Посмотреть сообщение
Сколько можем себе позволить по памяти столько и оставляем?
Предположим что это не наш вариант. Слишком большое кол-во слов - это плохо. Вначале будут идти предлоги, которые в данной метрике не имеют значения, в конце будут идти редкие слова которые встречаются по 1-2 раза в корпусе и тоже не имеют значения. Как определить трешхолд?
0
27 / 26 / 6
Регистрация: 02.02.2014
Сообщений: 96
27.11.2019, 03:59
Тогда остается один тупейший, но вполне себе подходящий ответ - выбираем трешхолды по результатам кросс-валидации.
0
0 / 0 / 0
Регистрация: 22.01.2019
Сообщений: 9
27.11.2019, 10:21  [ТС]
Цитата Сообщение от warhast Посмотреть сообщение
Тогда остается один тупейший, но вполне себе подходящий ответ - выбираем трешхолды по результатам кросс-валидации.
Не очень подходит, вопрос не в кросс-валидации, а в подходе в частности. Должно же быть какое то обоснование математическое? И если нет, то может какие-то другие методы? Свет клином на Ципфе не сошелся. Есть мысль привязаться к некоторым медианам по текстам, но сформулировать я ее пока не могу.
А что если взять это самое распределение Ципфа и отбросить хвосты по квартилям? И вообще это же по сути диаграмма Парето?
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
27.11.2019, 10:21
Помогаю со студенческими работами здесь

Не получается вложить словарь в словарь
Друзья, доброго времени суток! Не могу понять, почему у меня не получается вложить словарь в словарь. Set Header =...

словарь
что-то не могу найти словарь русского языка, желательно не в xml, а в txt формате, помогите пожалуйста

Словарь
Доброго времени суток! Подскажите пожалуйста, смогу ли я найти (бесплатно) где-нибудь подобный скрипт, описанный в цитате и в примере: ...

Словарь
Нужна ссылка на русско-английский словарь (тот который можно распарсить). Или что-то из чего можно сделать массив слово - перевод.

Словарь
Из-за редкого заболевания Наде тяжело читать тексты: буквы в слове перемешиваются между собой. Она всё равно научилась читать, однако если...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
SDL3 для Web (WebAssembly): Работа со звуком через SDL3_mixer
8Observer8 08.02.2026
Содержание блога Пошагово создадим проект для загрузки звукового файла и воспроизведения звука с помощью библиотеки SDL3_mixer. Звук будет воспроизводиться по клику мышки по холсту на Desktop и по. . .
SDL3 для Web (WebAssembly): Основы отладки веб-приложений на SDL3 по USB и Wi-Fi, запущенных в браузере мобильных устройств
8Observer8 07.02.2026
Содержание блога Браузер Chrome имеет средства для отладки мобильных веб-приложений по USB. В этой пошаговой инструкции ограничимся работой с консолью. Вывод в консоль - это часть процесса. . .
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru