Форум программистов, компьютерный форум, киберфорум
Python: Научные вычисления
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.92/13: Рейтинг темы: голосов - 13, средняя оценка - 4.92
 Аватар для Лебедева Саша
0 / 0 / 0
Регистрация: 17.11.2018
Сообщений: 11

Преобразование нормального распределения в равномерное

24.11.2018, 21:18. Показов 2718. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Есть датасет, в котором прогнозируемая величина (суммарная оценка детей по ЕГЭ) имеет нормальное распределение. В котором около 80% наблюдений попадают в 180+-20 баллов по сумме 3х предметов.

Как красиво преобразовать распределение в равномерное для лучшего прогнозирования очень хороших и очень плохих результатов детей?

Другими словами: как убрать избыточные наблюдения, для того чтобы лучше прогнозировать выбросы и не переобучаться.
Миниатюры
Преобразование нормального распределения в равномерное  
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
24.11.2018, 21:18
Ответы с готовыми решениями:

Функция распределения для нормального распределения
Пытаюсь построить график для функции распределения нормального распределения . Взял интеграл по методу Симпсона. Но почему выводит график...

Построить графики интегральной и дифференциальной функции распределения для нормального закона распределения для ВЫБОРОК 90, 300, 1200
Помогите, пожалуйста, построить графики интегральной и дифференциальной функции распределения для нормального закона распределения для...

Функция нормального распределения
Генерирует ли этот код нормально распределенные числа? int rnd( int max ) { return (rand() % max) + 1; } float...

5
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
25.11.2018, 01:19
Без обид, но что-то мне подсказывает - очевидно, невнятное описание задачи - что вы не совсем понимаете, что вам нужно (т.е. цель исследования) и, соответственно, не верно пытаетесь найти средства ее достижения.
Ну, начиная с конца.
Что такое в вашем представлении "избыточные" наблюдения?
Вы уверены, что вы хотите ПРОГНОЗИРОВАТЬ выбросы, а не ВЫЯВЛЯТЬ их в данных? Более того, убрав некоторые наблюдения вы наоборот, как правило, теряете возможность выявлять аномалии (выбросы)?
Далее, что вы понимаете под прогнозированием результатов? Может, все-таки вы хотите научиться распознавать эти самые хорошие и плохие результаты?
По каким параметров вы собираетесь что-то прогнозировать (ну, или распознавать)?
Ну и наконец. Генерация равномерного распределения - это весьма непростая математическая задача, и уж точно из нормального распределения сгенерировать равномерное вам не удастся. Да и зачем оно вам надо? (Кроме того,замечу, что судя по графику, полученное распределение ваших данных НЕ является нормальным.)
А что такое "красивое перобразование" - это вообще загадка.
В общем - если хотите поучить какие-либо советы, давайте начнем с того, что вы попробуете явно и четко сформулировать цель исследования, а уж потом подумаем, каким образом можно достичь результатов.
1
 Аватар для Лебедева Саша
0 / 0 / 0
Регистрация: 17.11.2018
Сообщений: 11
25.11.2018, 11:46  [ТС]
passant,
Перечитала. Задача действительно сформулирована не совсем корректно.

Есть датасет с экзотическими признаками(не оценки), предположительно, влияющими на суммарный ЕГЭ:
Доход семьи
Количество пропусков дней в начальной школе
.
.
Участии в школьных командах по баскетболу, и т.п.

Есть результаты этих детей по ЕГЭ - нечто похожее на квази-нормальное распределение. С "высокой" серединой и "тяжелыми" хвостами.

Задача пособирать на этом модели для прогнозирования очень хороших и очень плохих результатов детей по данным в следующие года.
0
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
25.11.2018, 15:27
ОК, это уже лучше.
Теперь несколько следующих вопросов.
1. Я правильно понял, среди независимых переменных (т.е. признаков, на основании которых вы хотите делать прогноз) есть и количественные и номинальные?
2. В чем будет заключаться ваш прогноз - в том, что необходимо для некоторого конкретного ребенка по его входным признакам предсказать результат ЕГЭ? Или достаточно сделать ранговый прогноз в шкале "очень плохо - плохо- норма - хорошо - очень хорошо" (или в какой другой)? Если последнее - то объясните, как сегодня делят "результаты по ЕГЭ" по этой шкале. Или проще - вот, например, есть конкретный результат ЕГЭ. Как определить что он "очень хороший" или "очень плохой"?
3. Еще один наводящий вопрос. Например, в прошлом году средняя оценка по ЕГЭ была 200. И считалось, что человек, получивший 225 - отобран в качестве "очень хорошо". А в текущем году средняя оценка стала 220 балов. Будете ли вы считать, что 225 это по прежнему "очень хорошо", или "очень хорошо" сместиться, например, к 245. Дело не в конкретных числах, а в принципе.
Пока все.
0
 Аватар для Лебедева Саша
0 / 0 / 0
Регистрация: 17.11.2018
Сообщений: 11
25.11.2018, 16:49  [ТС]
passant,

1. Да, все верно
2. Оба варианта устроят. Но в итоге будет интерпритация в виде рангов. Поэтому хочу сделать решить задачу как регрессионную и классификационную. Про ранжирование.

Сейчас в результатах ЕГЭ МО РФ выделяет "высокобальников" 80+ баллов. Мне нужно другое.

Количество ребят набравших по шкале 0-300
0-10% промежуток куда попадают худшие 10 % результатов
10-90% середина
90-100% промежуток куда попадают лучшие 10 % результатов

3. Желательно конечно сместиться. Но можно и без этого, т.к. разброс среднего всего 10 баллов за 8 лет.
0
578 / 411 / 69
Регистрация: 09.01.2018
Сообщений: 1,363
05.12.2018, 20:52
Извините, что с задержкой.
Задача вполне свелась к стандартной.
Итак, предлагаемый roadmap.
1. Размечаете имеющиеся данные в выбранной вами ранговой шкале. Т.е. каждому школьнику, описываемому набором значений своих признаков ставите в соответствие некую оценку. Ничего никуда не отбрасываем, никакое переобучение тут вам не грозит. Операцию, очевидно, придется провести ручками, ну или написать соответствующий простенький скриптик.
2. На полученный таким образом размеченный датасет натравливаем любой алгоритм классификации - от метода ближайшего соседа до многослойного персептрона. Если важна интерпретируемость результатов обратите внимание на методы на основе решающих деревьев/леса. Если не очень важно можно попробовать машину опорных векторов. Тут никто вам не даст готового (лучшего) решения надо эксперементировать.
3. Получаете выборку текущего года и пропускаете его через классификатор, получившийся на прошлом шаге.
В общем- все вполне традиционно. Классическая задача классификации.
Вот если захотите "сместиться в оценке" (см. последний вопрос предыдущего ответа) вот тогда начнутся сложности. И там можно что-то придумать, но пока советую проверить работоспособность вашей идеи без учета такой возможности.
Остались (появились новые) вопросы - задавайте.
Удачи.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
05.12.2018, 20:52
Помогаю со студенческими работами здесь

Определение параметров нормального распределения
Здравствуйте! Помогите, пожалуйста. Некоторая величина распределяется по нормальному закону. При этом величина а, она же мат. ожидание,...

Найти параметры нормального распределения
Доброго времени суток. Решаю задачку: import numpy as np def sd(arr, count): mean = np.mean(arr) print("mean...

Плотность вероятности нормального распределения
Доброе время суток!Подскажите,пожалуйста,почему в интегреле в бесконечных пределах функции dnorm(x,µ, σ), µ и σ нельзя задавать...

Интеграл с плотностью нормального распределения
Добрый Вечер. Необходимо посчитать данный интеграл. f(\tau) = \int_{b/\sigma}^\infty...

Функция нормального и показательного распределения
Помогите в MathCADe построить функцию нормального и показательного распределения. Нормальное распределение: диапазон значений - 7-127; ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Уведомление о неверно выбранном значении справочника
Maks 06.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "НарядПутевка", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если в документе выбран неверный склад. . .
Установка Qt Creator для C и C++: ставим среду, CMake и MinGW без фреймворка Qt
8Observer8 05.04.2026
Среду разработки Qt Creator можно установить без фреймворка Qt. Есть отдельный репозиторий для этой среды: https:/ / github. com/ qt-creator/ qt-creator, где можно скачать установщик, на вкладке Releases:. . .
AkelPad-скрипты, структуры, и немного лирики..
testuser2 05.04.2026
Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .
Отображение реквизитов в документе по условию и контроль их заполнения
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеСпецтехники", разработанного в конфигурации КА2. Данный документ берёт данные из другого нетипового документа. . .
Фото всей Земли с борта корабля Orion миссии Artemis II
kumehtar 04.04.2026
Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .
Вывод диалогового окна перед закрытием, если документ не проведён
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .
Программный контроль заполнения реквизитов табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: 1. Реализовать контроль заполнения реквизита. . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru