Для исследования взаимосвязи между двумя переменными, которые выражены в относительной шкале (т.е. конкретные цифры: тонны, км, тыс. грн. и т.д.), мы можем использовать коэффициент корреляции.

Давайте посмотрим, как это сделать.

У нас есть данные по двум переменным: Скорость чтения и Количество книг (прочитанных):

## 'data.frame':    67 obs. of  3 variables:
##  $ X.             : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Сколько.книг   : int  4 4 1 3 2 0 2 3 3 20 ...
##  $ Скорость.чтения: int  240 291 300 196 220 243 344 234 225 414 ...

Мы можем быстро построить график scatter plot, который покажет нам характер взаимосвязи:

Теперь мы можем рассчитать коэффициент корреляции.

Поскольку у нас нарушается условие нормальности распределения по одной из переменных, будем рассчитывать коэффициент корреляции Кендала:

## 
##  Kendall's rank correlation tau
## 
## data:  df_temp$Скорость.чтения and df_temp$Сколько.книг
## z = 2.8885, p-value = 0.00387
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##       tau 
## 0.2514895

Мы видим, что у нас есть слабая положительная корреляция 0,25 и этот результат статистически значим (p = 0.00387).

По сути, это все выводы, которые мы можем сделать из данного расчета.

Как же нам больше узнать о характере взаимосвязи эти двух переменных?

Есть еще один метод, который считается более достоверным, поскольку он учитывает индивидуальные особенности внутри выборки, а не приводит к «угрупнению», как это делается при расчете коэффициента корреляции.

Его суть состоит в следующем.

Для начала, мы берем нашу выборку и делим ее по показателям первой переменной на несколько групп. Например, мы можем по переменной «Скорость чтения» выделить три группы: медленная, средняя, быстрая. И эти три группы будут характеризовать выраженность нашего признака «Скорость чтения».

А потом, уже среди этих групп смотрим, насколько выражен второй признак. И начинаем искать значимые различия между группами.

И здесь мы можем применять уже более широкий арсенал, а не только коэффициент корреляции: критерий Розенбаума, критерий Манна-Уитни, критерий Стьюдента, критерий Крускала-Уоллиса и даже дисперсионный анализ.

Теперь давайте все это сделаем на практике.

Для начала нам нужно разделить нашу выборку на группы по первой переменной.

Давайте взглянем на кривую нормально распределения.

Мы помним, что +/- одно стандартное отклонение охватит 68,26% выборки, +/- два стандартных отклонения – 95,44% и т.д.

Если мы отложим от центра +/- 0,5 стандартного отклонения, тогда получим следующую картину:

Половина всех наблюдений из нашей выборки попадет в группу со средней выраженностью фактора – средняя; 25%, которые находятся слева, попадут в группу – медленная; и 25% выборки, которые находятся справа, попадут в группу – быстрая.

Проделав нехитрые манипуляции в R, мы разделим нашу выборку на три группы по фактору Скорость чтения:

Итак, мы разделили наши наблюдения по переменной Скорость чтения на три группы:

Теперь у нас есть три группы, которые мы можем сравнивать между собой по второй переменной Количество (прочитанных) книг. И для того, чтобы наши различия были еще более выраженными, мы можем исключить нашу среднюю группу из дальнейших расчетов, и сравнивать только две группы: Медленная и Быстрая.

Давайте так и сделаем. Мы проведем двухвыборочный односторонний тест. Поскольку у нас нарушается условие нормальности по второй переменной Количество (прочитанных) книг, мы будем использовать непараметрический критерий Манна-Уитни:

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  df1$Сколько.книг[df1$Скорость.чтения < lim_min] and df1$Сколько.книг[df1$Скорость.чтения > lim_max]
## W = 94.5, p-value = 0.003543
## alternative hypothesis: true location shift is less than 0
## 95 percent confidence interval:
##       -Inf -1.999991
## sample estimates:
## difference in location 
##              -4.407672

Мы получили значимый результат p = 0.0035. Т.е. мы можем сделать вывод о том, что люди, которые читают быстрее (попали в группу «быстрая»), читают больше книг за год, нежели люди, которые читают медленно (попали в группу «медленная»).

Если сравнить средние значения Количества (прочитанных) книг этих двух групп, получится разница почти в три раза:

## [1] 2.91

И давайте визуализируем наш финальный расчет:

Вывод

  1. Исследовать взаимосвязи между количественными переменными можно не только расчетом коэффициента корреляции.

  2. Часто, для более глубокого понимания взаимосвязи между количественными переменными, мы можем преобразовать нашу количественную переменную в качественную (фактор). И важно понимать, что такое преобразование открывает перед нами новые возможности для анализа взаимосвязей.