Ковариация

shemanovskiy
2 min readApr 9, 2019

--

Ковариация — это способ показать то, насколько два массива данных линейно зависимы между собой. Считается ковариация по формуле:

То есть, для дискретных данных, это среднее арифметическое суммы попарных произведений разностей элементов массивов с их средним арифметическим.

Например, у нас есть два случайно сгенерированных массива [3, 2, 1, 9, 6, 2, 5, 6, 1, 5] и [1, 5, 3, 6, 9, 3, 2, 9, 8, 6]. Средние каждого массива равны, соответственно, 4.0 и 5.2.

Подставим значения в формулу:

и получим на выходе 2.4. Что означает эта цифра? Она означает, что между этими двумя массивами есть линейная зависимость, при этом, её положительное значение указывает на то, что, в среднем, когда значение x увеличивается, значение y также увеличивается.

В том случае, когда значение ковариации отрицательно, это указывает на то, что, в среднем, при увеличении значения x, значение yуменьшается.

Если же ковариация равна нулю, то это означает, что между наборами данных нет линейной зависимости. Вот пример двух линейно независимых массивов с нулевой ковариацией: [8, 9, 1, 8, 6, 9, 6, 8, 9, 7] и [5, 8, 6, 4, 2, 5, 3, 7, 2, 8].

Кстати, ковариация массива данных с самим собой, есть ни что иное, как дисперсия:

--

--

No responses yet