Электронная библиотека >> Теория вероятностей и математическая статистика

5.3. Двумерная линейная регрессионная модель

Рассмотрим простейшую двумерную модель регрессионного анализа:

(5.1)

Выражение (5.1) называется функцией регрессии y на x. Определению подлежат параметры уравнения регрессии b₀иb₁, называемые коэффициентами регрессии, а также - остаточная дисперсия.

Остаточной дисперсией называется та часть вариации зависимой переменной, которую нельзя объяснить воздействием объясняющей переменной. Именно поэтому остаточная дисперсия может быть использована для оценки качества модели, точности подбора функции, полноты набора объясняющих переменных.

Для нахождения оценок параметров уравнения регрессии чаще всего используется метод наименьших квадратов. Обозначим оценки параметров уравнения регрессии b₀и b₁как b₀и b₁. В соответствии с методом наименьших квадратов оценки b₀и b₁можно получить из условия минимизации суммы квадратов ошибок оценивания, т.е. суммой квадратов отклонений фактических значений зависимой переменной от расчетных ее значений, полученных на основе уравнения регрессии:

(5.2)

где .

Значения называются расчетными; они представляют собой значения зависимой переменной при заданном значении объясняющей переменной и в предположении, что последняя является единственной причиной изменения y, а ошибка оценки равна нулю. Разброс фактических значений вокруг обусловлен воздействием множества случайных факторов. Разность (-) называется остатком и дает количественную оценку значения ошибки, т.е. показывает воздействие возмущающей переменной.

Для того, чтобы найти минимум функции (5.2), сначала рассчитывают частные производные первого порядка, затем каждую из них приравнивают к нулю и решают полученную систему уравнений.

На основе изложенного выведем теперь оценки коэффициентов регрессии:

откуда

Итак, получили систему двух линейных уравнений, которая называется системой нормальных уравнений:

. (5.3)

Решим систему относительно b₀и b₁:

(5.4)

(5.5)

Оценку остаточной дисперсии можно получить, используя формулу:

. (5.6)

Следует отметить, что оценки b₀и b₁коэффициентов регрессии b₀и b₁, полученных по методу наименьших квадратов, обладает минимальной дисперсией среди всех возможных в классе линейных оценок.

Свободный член b₀определяет точку пересечения линии регрессии с осью ординат (рис 5.1). Поскольку b₀является средним значением yв точке x=0, экономическая интерпретация его вряд ли возможна. Поэтому на практике обычно больший интерес вызывает коэффициент регрессии b₁.

Подпись: Рис. 5.1. Регрессионная прямая и ее параметры

Коэффициент регрессии b₁ характеризует наклон прямой, описываемой уравнением, к оси абсцисс. Если обозначить угол, образуемый этой прямой и осью ox как j, то b₁=tgj. Коэффициент регрессии b₁ показывает среднюю величину изменения зависимой переменной yпри изменении объясняющей переменной x на единицу собственного изменения. Знак при b₁ указывает направление этого изменения. Если коэффициент регрессии имеет отрицательный знак, то это говорит об отрицательной регрессии, при которой увеличение значений объясняющей переменной ведет к убыванию значения y. Если коэффициент регрессии имеет положительный знак, то это говорит о положительной регрессии, означающей, что при увеличении значений объясняющей переменной увеличиваются и значения зависимой переменной.

Коэффициент b₀ имеет размерность зависимой переменной. Размерность коэффициента регрессии b₁ представляет собой отношение размерности зависимой переменной к размерности объясняющей переменной.

После того, как модель построена, то есть найдены ее параметры, необходимо проверить ее адекватность исходным данным, а также полученную точность.

При соблюдении всех предпосылок регрессионного анализа можно проверить значимость уравнения регрессии, для чего следует проверить нулевую гипотезу H₀ : b₁=0. В основе проверки лежит идея дисперсионного анализа, состоящая в разложении дисперсии на составляющие. В регрессионном анализе общая сумма Q_общ квадратов отклонений зависимой переменной разлагается на сумму квадратов Q_R отклонений, обусловленных регрессией, которая характеризует воздействие объясняющей переменной, и сумму квадратов Q_ост отклонений относительно плоскости регрессии, характеризующую воздействие неучтенных в модели или случайных факторов.

При этом Q_общ=Q_R +Q_ост, где Q_общ

Разложим Q_общ на составляющие, прибавив и вычтя предварительно :

Q_общ

Покажем, что последнее слагаемое равно 0. Для этого учтем (5.2) и (5.5) запишем:

и .

Тогда получим с учетом (5.4):

Откуда:

Q_R (5.7)

Q_ост . (5.8)

Понятно, что чем меньше Q_ост, т.е. меньше воздействие неучтенных в модели или случайных факторов, тем точнее соответствует модель фактическим данным.

Для проверки гипотезы используется F-критерий, основанный на статистике:

, (5.9)

который имеет распределение Фишера-Снедекора с числом степеней свободы n₁=1 и n₂=n-2.

Задавшись уровнем значимости aи соответствующим числом степеней свободы (используя таблицу F-распределения Фишера-Снедекора), находим F_кр, удовлетворяющее условиюP(F_н>F_кр)£a.

Если F_н>F_кр, нулевая гипотеза отвергается и уравнение регрессии считается значимым. При F_н£ F_кр оснований для отклонения гипотезы нет.

Если уравнение регрессии значимо, то представляет интерес определение с надежностью gинтервальных оценок параметров :

; (5.10)

; (5.11)

. (5.12)

Доверительную оценку с надежностью g для интервала предсказания в точке x=x₀определяют по формуле (здесь х₀¹х_i, где i=1,2,...,n):

, (5.13)

где t_αопределяют по таблице t-распределения Стьюдента при a =1-g и n=n-2.

Одной из наиболее эффективных оценок адекватности построенной модели является коэффициент детерминации r², определяемый как:

. (5.14)

Отношение (5.14) показывает, какая часть общей дисперсии зависимой переменной yобусловлена вариацией объясняющей переменной x. Чем больше доля дисперсии в общей дисперсии , тем лучше выбранная функция аппроксимирует фактические данные. При этом выбранная функция тем лучше определена, чем меньше величина , т.е. чем меньше эмпирические значения отклоняются от расчетной линии регрессии.

Величина коэффициента детерминации находится в интервале 0£ r²£1. Если r²=0, то это означает, что вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели факторов. В этом случае линия регрессии будет параллельна оси абсцисс: - и никакой причинно-следственной связи не будет наблюдаться.

Если r²=1, то все фактические значения лежат на линии регрессии, т.е. . В этом случае говорят о строгой линейной функциональной связи между зависимой и объясняющей переменными.

При расчете коэффициента детерминации удобно пользоваться видоизмененной формулой:

. (5.15)

Легко заметить, что r²является квадратом выборочного коэффициента корреляции r. Величина 1-r² характеризует долю общей дисперсии зависимой переменной, объясненную воздействием неучтенных в модели и случайных факторов.

Поясним это на примере. Для проведения экономического анализа было случайным образом отобрано 71 предприятие хлебопекарной промышленности. Следует оценить зависимость между x- долей активной части в стоимости основных промышленно-производственных фондов, (%); y- выработкой товарной продукции на одного работающего, (тыс. руб).

По исходным данным определим вспомогательные величины:

Sx_i=1911,9; Sy_i=1037,5; Sx_iy_i=29296,89; Sx_i²=58317,27; Sy_i²=16391,56.

Определим оценки параметров, уравнения регрессии, для чего воспользуемся формулами 5.4 и 5.5:

Таким образом, получим =9,254+0,199x.

Проверим значимость полученного уравнения, для чего определим Q_Rи Q_остпо формулам (5.7) и (5.8).

Q_R= 269,29; Q_ост= 964,03.

Тогда .

Найдем F_кр из условия a=0,05; n₁=1; n₂=69 по таблице Фишера - Снедекора. F_кр~ 4.

Уравнение оказывается статически значимым (нулевая гипотеза отвергается).

В результате статистического моделирования получено уравнение регрессии зависимости выработки товарной продукции на одного работающего от доли активной части основных промышленно-производственных фондов.

Коэффициент регрессии b₁= 0,199 показывает, что при изменении доли активной части фондов на 1% выработка товарной продукции на одного работающего увеличивается на 0,199 тыс. руб., (или на 199 рублей). Коэффициент детерминации r² =0,468²=0,219, т.е. 21,9% вариации зависимой переменной объясняется вариацией доли активной части фондов, а 78,1% вариации вызвано воздействием неучтенных в модели и случайных факторов. Поэтому очевидно, что для характеристики выработки товарной продукции данная модель малопригодна.

Для сравнительного анализа влияния разных факторов и устранения различий в единицах их измерения используется коэффициент эластичности:

Он означает, что при изменении (увеличении) доли активной части фондов на 1% выработка товарной продукции увеличивается на 0,367%.

Для устранения различий в степени колеблемости переменных в экономическом анализе используются b-коэффициенты:

Величина коэффициента свидетельствует о том, что при увеличении доли активной части фондов на одно среднеквадратическое отклонение выработка товарной продукции увеличится примерно на 0,5 среднеквадратического отклонения.

Таким образом, в результате экономической интерпретации выясняется, что модель недостаточно адекватно отражает исследуемый процесс, поэтому требуется дополнительный содержательный анализ по выявлению факторов, оказывающих существенное влияние на производительность труда.

Тест

1. Уравнение регрессии имеет вид . На сколько единиц своего измерения в среднем изменится y при увеличении xна 1 единицу своего измерения:

а) Увеличится на 1,7;

б) Не изменится;

в) Уменьшится на 1,7;

г) Увеличится на 3,4.

2. Статистика имеет распределение:

а) Фишера-Снедекора;

б) Фишера-Иейтса;

в) Стьюдента;

г) Пирсона.

3. Несмещенная оценка остаточной дисперсии в двумерной регрессионной модели рассчитывается по формуле:

а) ;

б) ;

в) ;

г) .

4. При интервальной оценке коэффициентов регрессии t_a определяется по таблице:

а) Нормального распределения;

б) Распределения Стьюдента;

в) Распределения Фишера-Снедекора;

г) Z-преобразования Фишера.

5. Согласно методу наименьших квадратов в качестве оценок параметров b₀ и b₁следует использовать такие значения b₀и b₁, которые минимизируют сумму квадратов отклонений: