Форум программистов, компьютерный форум, киберфорум
Статистика, теория вероятностей
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 4.96/50: Рейтинг темы: голосов - 50, средняя оценка - 4.96
0 / 0 / 1
Регистрация: 07.02.2013
Сообщений: 20

Аномальные значения. Анализ набора данных

07.02.2013, 23:26. Показов 10635. Ответов 36
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день.
Уважаемые знатоки, помогите разобраться.
У меня есть времена (в часах) решения какого-то заданий (в моем случае заявки ITSD в ИТ компании):
1,3,7,9,3,7,5,9,300,8

Как из этого набора исключить аномальный показатель 300?
Спасибо за помощь.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
07.02.2013, 23:26
Ответы с готовыми решениями:

Аномальные значения
В задаче представлены данные в виде набора выборок по 1000 отсчетов, без аномальных отсчетов (данные А , выборки в столбцах файла) и с...

Аномальные файлы в пустой папке
Добрый вечер! Откуда взялись Аномальные файлы в пустой папке ? void main() { WIN32_FIND_DATA FindFileData; HANDLE hf; ...

Аномальные проседания фпс на интегрированной графике
Процессор i7 6700K с интегрированной графикой HD Graphics 530. GTA 5 с низких настройках в 720p имеет привычку начинать жутко пролагивать...

36
832 / 679 / 101
Регистрация: 11.11.2012
Сообщений: 1,800
08.02.2013, 02:11
критерии для анализа на выбросы, аномальные наблюдения. их достаточно много . тот же критерий Граббса - я думаю, Вам любой тут подойдет. - посмотрите например классику - Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. – М.: Наука, 1983. – 416 с.
1
 Аватар для Таланов
1965 / 1073 / 163
Регистрация: 06.12.2012
Сообщений: 4,695
08.02.2013, 02:35
Общее правило гласит, что по меньшей мере одно из каждых десяти отдельных значений экспериментальной выборки результатов может быть отброшено как промах, если оно лежит вне области X +/- 4S (X и S - выборочные среднее арифметическое и среднее квадратичное отклонение (CKO) ряда экспериментальных данных), причем величины X и S рассчитываются без учета подозреваемых как выброс экстремальных значений.
1
0 / 0 / 1
Регистрация: 07.02.2013
Сообщений: 20
08.02.2013, 11:46  [ТС]
Спасибо за ответы. Я обязательно изучу рекомендованные вами методы.
А правильно ли я поступаю, если:

1. Есть ряд {1,3,7,9,3,7,5,9,300,8}
2. Считаю среднеквадратичное отклонение. После просчета = 88,35
3. Все что больше значения сигмы (этого отклонения), я выбрасываю из ряда.
4. И в распоряжении я буду иметь ряд {1,3,7,9,3,7,5,9,8}

Скажите, есть ли смысл в этом?
0
 Аватар для Таланов
1965 / 1073 / 163
Регистрация: 06.12.2012
Сообщений: 4,695
08.02.2013, 13:17
Цитата Сообщение от yvbondarenko Посмотреть сообщение
А правильно ли я поступаю, если:
1. Есть ряд {1,3,7,9,3,7,5,9,300,8}
2. Считаю среднеквадратичное отклонение. После просчета = 88,35
3. Все что больше значения сигмы (этого отклонения), я выбрасываю из ряда.
4. И в распоряжении я буду иметь ряд {1,3,7,9,3,7,5,9,8}
Не правильно! Важно не только обнаружить выброс, но и не выкинуть при этом нормальные данные. Попробуйте заменить 300 на 10. Что вы выбросите?
Цитата Сообщение от yvbondarenko Посмотреть сообщение
Скажите, есть ли смысл в этом?
Смысл отбраковки выбросов в этом и заключается. Найти критическое максимальное значение в выборке, то что превышает его, выкинуть. Трудность в определении критического значения, поэтом и существует множество критериев для этого.

Добавлено через 36 минут
Цитата Сообщение от yvbondarenko Посмотреть сообщение
Я обязательно изучу рекомендованные вами методы.
Это очень не просто. Для практического применения достаточно использовать способ межквартильного расстояния:
http://ru.wikipedia.org/wiki/%... A%D0%B0%29
1
0 / 0 / 1
Регистрация: 07.02.2013
Сообщений: 20
08.02.2013, 14:26  [ТС]
Большое спасибо.
Я воспользовался T-критерием Граббса.

T = (xi - xср)/S
где
xi - текущее значение выборки
xср - среднее арифметическое по выборке
S - среднее квадратичное отклонение

Далее используя процентные точки критерия Смирнова –Грабса Ti сравнивал с табличным значением при альфа = 0,10 при 20 наблюдениях.
Таким образом я определил аномалии (я так думаю).
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
static void Main(string[] args)
        {
            double[] i = { 1, 3, 7, 9, 3, 7, 5, 9, 300, 8 };
            double avg = 0;
            const double alfa = 2.447;
            double sig = 0; 
            avg = i.Sum() / i.Count();            
                        foreach (int b in i)
            {
                sig += (b - avg) * (b - avg);             
            }
            sig = sig / (i.Count());
            sig = Math.Sqrt(sig);
            Console.WriteLine("Отклонение "+sig.ToString());
            Console.WriteLine("Среднее " + avg.ToString()+"\n");            
            Console.WriteLine("Элементы, которые не попадают:");
            foreach (int c in i)
            {
                if (alfa < ((c-avg)/sig)) { Console.WriteLine("Выпадает "+c.ToString()); }
            }
            Console.ReadLine();
        }
На выходе получил "Выпадает 300"
Когда 300 поменял на 10. У меня не обнаружилось аномалий в значениях.
Как вы думаете такой подход имеет право быть использованным в продуктивной среде?
Спасибо
0
 Аватар для Таланов
1965 / 1073 / 163
Регистрация: 06.12.2012
Сообщений: 4,695
08.02.2013, 15:13
Цитата Сообщение от yvbondarenko Посмотреть сообщение
Большое спасибо.
Я воспользовался T-критерием Граббса.
Критерий Диксона ещё вам подойдет.
1
0 / 0 / 1
Регистрация: 07.02.2013
Сообщений: 20
08.02.2013, 15:22  [ТС]
А какой метод эффективнее в моем случае?

Еще вопрос:
Что может характеризовать стабильность какого-то показателя?
0
 Аватар для Таланов
1965 / 1073 / 163
Регистрация: 06.12.2012
Сообщений: 4,695
08.02.2013, 15:35
Нет такого понятия - эффективный метод. Проверяется гипотеза о принадлежности аномального значения к ГС, из которой извлечена выборка. Нужно задать уровень значимости принятия гипотезы. То есть указать вероятность ошибки, с которой отвергается нулевая и принимается альтернативная гипотеза. Желательно проверить несколькими критериями. Профессиональный подход включает понимание природы порождения данных и знание функции распределения по каким-то уже полученным данным.

Добавлено через 4 минуты
Цитата Сообщение от yvbondarenko Посмотреть сообщение
Что может характеризовать стабильность какого-то показателя?
Неизменность во времени например, его среднего значения.
1
0 / 0 / 1
Регистрация: 07.02.2013
Сообщений: 20
08.02.2013, 15:38  [ТС]
Александр, большое спасибо за уделенное время.
Я для себя прояснил много вещей.
0
 Аватар для Таланов
1965 / 1073 / 163
Регистрация: 06.12.2012
Сообщений: 4,695
08.02.2013, 15:47
Цитата Сообщение от yvbondarenko Посмотреть сообщение
На выходе получил "Выпадает 300"
Когда 300 поменял на 10. У меня не обнаружилось аномалий в значениях.
Продолжайте менять 10 на 11, 12 т.д. Какой получился выброс?
1
0 / 0 / 1
Регистрация: 07.02.2013
Сообщений: 20
08.02.2013, 15:56  [ТС]
Первый выброс на 18
0
 Аватар для Таланов
1965 / 1073 / 163
Регистрация: 06.12.2012
Сообщений: 4,695
08.02.2013, 16:08
Цитата Сообщение от yvbondarenko Посмотреть сообщение
Первый выброс на 18
С каким уровнем значимости?
1
0 / 0 / 1
Регистрация: 07.02.2013
Сообщений: 20
08.02.2013, 16:12  [ТС]
10 %
0
 Аватар для Таланов
1965 / 1073 / 163
Регистрация: 06.12.2012
Сообщений: 4,695
08.02.2013, 16:15
Это в предположении что выборка принадлежит к нормальному распределению?
1
0 / 0 / 1
Регистрация: 07.02.2013
Сообщений: 20
08.02.2013, 16:18  [ТС]
Да.
0
 Аватар для Таланов
1965 / 1073 / 163
Регистрация: 06.12.2012
Сообщений: 4,695
09.02.2013, 04:07
А если другое распределение?
1
0 / 0 / 1
Регистрация: 07.02.2013
Сообщений: 20
10.02.2013, 15:11  [ТС]
Например какое?
0
832 / 679 / 101
Регистрация: 11.11.2012
Сообщений: 1,800
10.02.2013, 15:14
ну по такому количеству наблюдений нельзя сделать нормальные выводы ни о каком распределении вообще
1
0 / 0 / 1
Регистрация: 07.02.2013
Сообщений: 20
10.02.2013, 15:24  [ТС]
Вот например http://www.ex.ua/view_storage/610921678195 (мой ряд из 2614 членов example.xlsx)
Выпало 93 (По той же ссылке result.txt)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
10.02.2013, 15:24
Помогаю со студенческими работами здесь

Очистка полей ввода данных и сокрытие группы объектов набора данных
Добавьте в обработчик button2 очистку полей ввода данных и сокрытие группы объектов набора данных, как это сделано в обработчике button3....

Аномальные результаты при оперировании малыми числами
Добрый день. Возникла довольно странная для меня проблема. Дело вот в чем. Требуется итеративным методом вычислить собственные...

Изменение набора данных ADOQuery без изменения подключенной к нему базы данных
Проблема следующая Есть база данных, есть подключенный к ней ADOQuery, в котором ЧАСТЬ записей базы. Я хочу поменять данные только в...

Создание набора данных .xsd на основе сохраненного дампа базы данных MS SQL
Привет всем! У меня есть текстовый файл - дамп (если правильно выражаюсь) базы данных с расширением .sql такого вида: USE GO ...

Напечатать значения функций f (x1), ..., f (xn) для набора чисел х1, ..., хn.
Здравствуйте, дорогие знатоки. Задали такое вот задание: Опишите функцию f (x) - число, состоящее из всех парных цифр натурального числа...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Ответ Создать тему
Новые блоги и статьи
Отправка уведомления на почту при изменении наименования справочника
Maks 24.03.2026
Программная отправка письма электронной почты на примере изменения наименования типового справочника "Склады" в конфигурации БП3. Перед реализацией необходимо выполнить настройку системной учетной. . .
модель ЗдравоСохранения 5. Меньше увольнений- больше дохода!
anaschu 24.03.2026
Теперь система здравосохранения уменьшает количество увольнений. 9TO2GP2bpX4 a42b81fb172ffc12ca589c7898261ccb/ https:/ / rutube. ru/ video/ a42b81fb172ffc12ca589c7898261ccb/ Слева синяя линия -. . .
Midnight Chicago Blues
kumehtar 24.03.2026
Такой Midnight Chicago Blues, знаешь?. . Когда вечерние улицы становятся ночными, а ты не можешь уснуть. Ты идёшь в любимый старый бар, и бармен наливает тебе виски. Ты смотришь на пролетающие. . .
Контроль уникальности заводского номера - вариант №2
Maks 24.03.2026
В отличие от предыдущего варианта добавлено прерывание циклов, также добавлены новые переменные для сохранения контекста ошибки перед прерыванием цикла: Процедура ПередЗаписью(Отказ, РежимЗаписи,. . .
SDL3 для Desktop (MinGW): Вывод текста со шрифтом TTF с помощью библиотеки SDL3_ttf на Си и C++
8Observer8 24.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-text-sdl3-c. zip finish-text-sdl3-cpp. zip
Жизнь в неопределённости
kumehtar 23.03.2026
Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .
Модель здравоСохранения: работники работают быстрее после её введения.
anaschu 23.03.2026
geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .
Контроль уникальности заводского номера - вариант №1
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере нетипового документа выдачи шин для спецтехники с табличной частью, разработанного в конфигурации КА2. Данные берутся из. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru