Читать «Том 19. Ипотека и уравнения. Математика в экономике» онлайн - страница 67

Луис Арталь

Вывод коэффициента корреляции для всей генеральной совокупности на основе анализа выборки, который обозначается R, выполняется на основе коэффициента корреляции r, рассчитанного для выборки. Этот процесс подробно изучен. По сути, можно рассмотреть как оценочное значение R и проанализировать, действительно ли оно является точным оценочным значением. Выборки из одной и той же генеральной совокупности можно формировать множеством способов, и коэффициент корреляции на каждой выборке будет отличаться. Коэффициенты корреляции r для всех возможных выборок являются значениями случайной величины, которая характеризуется собственным распределением.

* * *

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ

Чтобы подтвердить исходное предположение, что между двумя переменными наблюдается корреляция (к такому выводу можно прийти, взглянув на диаграмму рассеяния), рассчитаем коэффициент корреляции. Для выборки из n пар значений (хi, уi) при i = 1, 2, 3…., n показателем линейной связи между переменными является — линейный коэффициент корреляции,

где х¯, у¯, σхσу — средние значения и среднеквадратические отклонения, рассчитанные для переменных X и Y на выборке. Значения коэффициента корреляции r всегда находятся в интервале от -1 до 1. Если r = 1 или r = -1, то все точки, соответствующие выборке, лежат на одной прямой. Если значение r близко к 1 (или к -1), то между двумя переменными имеется очень сильная линейная зависимость. Если значение мало (близко к 0), то зависимость между двумя переменными практически отсутствует, за исключением случаев, когда на основе диаграммы рассеяния можно сделать вывод о наличии нелинейной корреляции.

Коэффициент r — безразмерная величина, не зависящая от единиц измерения значений и Y.

В следующей таблице представлены значения двух статистических переменных, X и Y, на выборке объемом в пять значений

Диаграмма рассеяния.

Для анализа корреляции рассчитывается среднее х, среднеквадратическое отклонение σ и коэффициент r.

ЛИНИИ РЕГРЕССИИ

Если точки (х, у) на диаграмме рассеяния расположены близко к некоторой прямой или кривой, то можно определить функцию, которая с наибольшей точностью будет описывать это множество точек. Графиком указанной функции будет линия регрессии, которую можно будет использовать для составления прогнозов.

Математический метод, используемый для определения функции, которая точнее всего описывает множество значений выборки, называется методом наименьших квадратов.

Решив эту систему уравнений, мы найдем значения а и Ь. Допустим, что эти значения равны, например, а' и Ь'. В этом случае уравнение искомой прямой будет записываться так: у = а'х + Ь'. Для приведенных ниже таблицы значений и диаграммы рассеяния линия регрессии рассчитывается следующим образом:

Уравнение линии регрессии, описывающей зависимость Y от X, выглядит так: y = (11/14)x + (6/7). Чтобы найти линию регрессии, описывающую зависимость Y от X, хi меняется на уi, результатом чего будет следующая система уравнений (чтобы избежать путаницы, заменим а и Ь на с и d):