Дисперсия

shemanovskiy
2 min readApr 8, 2019

--

Допустим, у нас есть два игрушечных набора данных: [-9, -6, 7.5] и [-4, -3, -2, -1].

Как можно быстро и просто их сравнить? Первое, что приходит в голову: посчитать среднее значение для каждого набора:

Что покажет это значение? Абсолютно ничего, поскольку у обоих наборов оно одинаково и равно -2.5.

Давайте отобразим наборы данных на графике и визуально оценим их:

Красные точки — это первый набор данных, зелёные квадраты — второй, а вертикальная красная пунктирная линия — среднее значение обоих наборов.

На графике явно видно, что данные обоих наборов совершенно по-разному разбросаны относительно среднего значения: зеленые квадраты сгруппированы тесно, а красные точки лежат довольно далеко. Вот эту разницу и призвана выразить в числах дисперсия, которая есть не что иное, как средний разброс величин относительно среднего значения набора данных:

Простыми словами, для того, чтобы посчитать дисперсию, нужно вычесть из каждого элемента набора среднее значение и возвести эту разницу в квадрат. Затем нужно все полученные значения сложить и поделить сумму на количество элементов набора.

Посчитаем дисперсию для первого набора:

и для второго:

Понятно, что для таких маленьких наборов данных дисперсию можно не считать, потому как совсем небольшие наборы можно оценить в уме, для наборов чуть больше — достаточно построить график, разница на котором будет видна невооружённым взглядом, а, вот, когда наборы большие, разброс бывает совершенно неочевиден и в этих случаях на помощь приходит мера дисперсии.

--

--

No responses yet