5.3. Двумерная линейная регрессионная модель

 

Рассмотрим простейшую двумерную модель регрессионного анализа:

                                                                                    (5.1)

Выражение (5.1) называется функцией регрессии y на x. Определению подлежат параметры уравнения регрессии b0иb1, называемые коэффициентами регрессии, а также  - остаточная дисперсия.

Остаточной дисперсией называется та часть вариации зависимой переменной, которую нельзя объяснить воздействием объясняющей переменной. Именно поэтому остаточная дисперсия может быть использована для оценки качества модели, точности подбора функции, полноты набора объясняющих переменных.

Для нахождения оценок параметров уравнения регрессии чаще всего используется метод наименьших квадратов. Обозначим оценки параметров уравнения регрессии b0и b1как b0и b1. В соответствии с методом наименьших квадратов оценки b0и b1можно получить из условия минимизации суммы квадратов ошибок оценивания, т.е. суммой квадратов отклонений фактических значений зависимой переменной от расчетных ее значений, полученных на основе уравнения регрессии:

                                         (5.2)

где .

Значения называются расчетными; они представляют собой значения зависимой переменной при заданном значении объясняющей переменной и в предположении, что последняя является единственной причиной изменения y, а ошибка оценки равна нулю. Разброс фактических значений  вокруг  обусловлен воздействием множества случайных факторов. Разность (-) называется остатком и дает количественную оценку значения ошибки, т.е. показывает воздействие возмущающей переменной.

Для того, чтобы найти минимум  функции (5.2), сначала рассчитывают частные производные первого порядка, затем каждую из них приравнивают к нулю и решают полученную систему уравнений.

На основе изложенного выведем теперь оценки коэффициентов регрессии:

откуда

откуда

Итак, получили систему двух линейных уравнений, которая называется системой нормальных уравнений:

.                                                                                           (5.3)

 

Решим систему относительно b0и b1:

 

                           (5.4)

 

                                                                                   (5.5)

 

Оценку остаточной дисперсии можно получить, используя формулу:

.                                                                                                 (5.6)

 

Следует отметить, что оценки b0и b1коэффициентов регрессии b0и b1, полученных по методу наименьших квадратов, обладает минимальной дисперсией среди всех возможных в классе линейных оценок.

Свободный член b0определяет точку пересечения линии регрессии с осью ординат (рис 5.1). Поскольку b0является средним значением yв точке x=0, экономическая интерпретация его вряд ли возможна. Поэтому на практике обычно больший интерес вызывает коэффициент регрессии b1.

Подпись:  Рис. 5.1. Регрессионная прямая и ее параметры

 

Коэффициент регрессии b1 характеризует наклон прямой, описываемой уравнением, к оси абсцисс. Если обозначить угол, образуемый этой прямой и осью ox как j, то b1=tgj. Коэффициент регрессии b1 показывает среднюю величину изменения зависимой переменной yпри изменении объясняющей переменной x на единицу собственного изменения. Знак при b1 указывает направление этого изменения. Если коэффициент регрессии имеет отрицательный знак, то это говорит об отрицательной регрессии, при которой увеличение значений объясняющей переменной ведет к убыванию значения y. Если коэффициент регрессии имеет положительный знак, то это говорит о положительной регрессии, означающей, что при увеличении значений объясняющей переменной увеличиваются и значения зависимой переменной.

Коэффициент b0  имеет размерность зависимой переменной. Размерность коэффициента регрессии b1 представляет собой отношение размерности зависимой переменной к размерности объясняющей переменной.

После того, как модель построена, то есть найдены ее параметры, необходимо проверить ее адекватность исходным данным, а также полученную точность.

При соблюдении всех предпосылок регрессионного анализа можно проверить значимость уравнения регрессии, для чего следует проверить нулевую гипотезу H0 : b1=0. В основе проверки лежит идея дисперсионного анализа, состоящая в разложении дисперсии на составляющие. В регрессионном анализе общая сумма Qобщ квадратов отклонений зависимой переменной разлагается на сумму квадратов QR отклонений, обусловленных регрессией, которая характеризует воздействие объясняющей переменной, и сумму квадратов Qост отклонений относительно плоскости регрессии, характеризующую воздействие неучтенных в модели или случайных факторов.

При этом Qобщ=QR +Qост , где Qобщ

Разложим Qобщ на составляющие, прибавив и вычтя предварительно :

Qобщ

.

 

         Покажем, что последнее слагаемое равно 0. Для этого учтем (5.2) и (5.5)  запишем:

и .

 

Тогда получим с учетом (5.4):

 

.

 

Откуда:

 

QR                                                                    (5.7)

Qост .                                                                                               (5.8)

 

Понятно, что чем меньше Qост, т.е. меньше воздействие неучтенных в модели или случайных факторов, тем точнее соответствует модель фактическим данным.

Для проверки гипотезы используется F-критерий, основанный на статистике:

 

,                                                                                                     (5.9)

 

который имеет распределение Фишера-Снедекора с числом степеней свободы n1=1 и n2=n-2.

Задавшись уровнем значимости aи соответствующим числом степеней свободы (используя таблицу F-распределения Фишера-Снедекора), находим Fкр, удовлетворяющее условиюP(Fн>Fкр)£a.

Если Fн>Fкр, нулевая гипотеза отвергается и уравнение регрессии считается значимым. При Fн £ Fкр оснований для отклонения гипотезы нет.

 

Если уравнение регрессии значимо, то представляет интерес определение с надежностью gинтервальных оценок параметров :

;                                                                                                   (5.10)

;                                                                                                      (5.11)

.                                                         (5.12)

Доверительную оценку с надежностью g для интервала предсказания в точке x=x0определяют по формуле (здесь х0¹хi, где i=1,2,...,n):

,                                                        (5.13)

где tαопределяют по таблице t-распределения Стьюдента при a =1-g и n=n-2.

Одной из наиболее эффективных оценок адекватности построенной модели является коэффициент детерминации r2, определяемый как:

.                                                                                                              (5.14)

Отношение (5.14) показывает, какая часть общей дисперсии зависимой переменной yобусловлена вариацией объясняющей переменной x. Чем больше доля дисперсии  в общей дисперсии , тем лучше выбранная функция аппроксимирует фактические данные. При этом выбранная функция тем лучше определена, чем меньше величина , т.е. чем меньше эмпирические значения отклоняются от расчетной линии регрессии.

Величина коэффициента детерминации находится в интервале     0£ r2£1. Если r2=0, то это означает, что вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели факторов. В этом случае линия регрессии будет параллельна оси абсцисс:  - и никакой причинно-следственной связи не будет наблюдаться.

Если r2=1, то все фактические значения  лежат на линии регрессии, т.е. . В этом случае говорят о строгой линейной функциональной связи между зависимой и объясняющей переменными.

При расчете коэффициента детерминации удобно пользоваться видоизмененной формулой:

.                                                    (5.15)

 

Легко заметить, что r2является квадратом выборочного коэффициента корреляции r. Величина 1-r2 характеризует долю общей дисперсии зависимой переменной, объясненную воздействием неучтенных в модели и случайных факторов.

Поясним это на примере. Для проведения экономического анализа было случайным образом отобрано 71 предприятие хлебопекарной промышленности. Следует оценить зависимость между x- долей активной части в стоимости основных промышленно-производственных фондов, (%); y- выработкой товарной продукции на одного работающего, (тыс. руб).

По исходным данным определим вспомогательные величины:

Sxi=1911,9; Syi=1037,5; Sxiyi=29296,89; Sxi2=58317,27; Syi2=16391,56.

Определим оценки параметров, уравнения регрессии, для чего воспользуемся формулами 5.4 и 5.5:

.

Таким образом, получим =9,254+0,199x.

Проверим значимость полученного уравнения, для чего определим Qи Qост по формулам (5.7) и (5.8).

Q= 269,29;   Qост  = 964,03.

Тогда .

Найдем Fкр из условия a=0,05; n1=1; n2=69 по таблице Фишера - Снедекора. Fкр~ 4.

Уравнение оказывается статически значимым (нулевая гипотеза отвергается).

В результате статистического моделирования получено уравнение регрессии  зависимости выработки товарной продукции на одного работающего от доли активной части основных промышленно-производственных фондов.

Коэффициент регрессии b1= 0,199 показывает, что при изменении доли активной части фондов на 1% выработка товарной продукции на одного работающего увеличивается на 0,199 тыс. руб., (или на 199 рублей). Коэффициент детерминации r2 =0,4682 =0,219, т.е. 21,9% вариации зависимой переменной объясняется вариацией доли активной части фондов, а 78,1% вариации вызвано воздействием неучтенных в модели и случайных факторов. Поэтому очевидно, что для характеристики выработки товарной продукции данная модель малопригодна.

Для сравнительного анализа влияния разных факторов и устранения различий в единицах их измерения используется коэффициент эластичности:

 

 

Он означает, что при изменении (увеличении) доли активной части фондов на 1% выработка товарной продукции увеличивается на 0,367%.

Для устранения различий в степени колеблемости переменных в экономическом анализе используются b-коэффициенты:

 

 

Величина коэффициента свидетельствует о том, что при увеличении доли активной части фондов на одно среднеквадратическое отклонение выработка товарной продукции увеличится примерно на 0,5 среднеквадратического отклонения.

Таким образом, в результате экономической интерпретации выясняется, что модель недостаточно адекватно отражает исследуемый процесс, поэтому требуется дополнительный содержательный анализ по выявлению факторов, оказывающих существенное влияние на производительность труда.


Тест

 

1.     Уравнение регрессии имеет вид . На сколько единиц своего измерения в среднем изменится y при увеличении xна 1 единицу своего измерения:

         а) Увеличится на 1,7;

         б) Не изменится;

         в) Уменьшится на 1,7;

         г) Увеличится на 3,4.

 

2. Статистика  имеет распределение:

         а) Фишера-Снедекора;

         б) Фишера-Иейтса;

         в) Стьюдента;

         г) Пирсона.

 

3. Несмещенная оценка остаточной дисперсии в двумерной регрессионной модели рассчитывается по формуле:

         а) ;

         б) ;

         в) ;

         г) .

 

4. При интервальной оценке коэффициентов регрессии ta определяется по таблице:

         а) Нормального распределения;

         б) Распределения Стьюдента;

         в) Распределения Фишера-Снедекора;

         г) Z-преобразования Фишера.

 

5. Согласно методу наименьших квадратов в качестве оценок параметров b0 и b1следует использовать такие значения b0и b1, которые минимизируют сумму квадратов отклонений:

 

         а) фактических значений зависимой переменной от ее среднего значения;

         б) фактических значений объясняемой переменной от ее среднего значения;

         в) расчетных значений зависимой переменной от ее среднего значения;

         г) фактических значений зависимой переменной от ее расчетных значения.

6. Какой коэффициент указывает в среднем процент изменения результативного показателя y при увеличении аргумента x на 1 процент:

         а) Бета-коэффициент;

         б) коэффициент эластичности;

         в) коэффициент детерминации;

         г) коэффициент регрессии.

 

7. Линейное относительно аргумента уравнение регрессии имеет вид:

         а) ;

         б) ;

         в) ;

         г) .

 

8. При проверке гипотезы H: b1=0 оказалось, что Fнабл > Fкр. Справедливо следующее утверждение:

         а) b1=0;

         б) b1¹0;

         в) b1¹0 с вероятностью ошибки a;

         г) b1=0 с вероятностью ошибки a.

 

9. Оценку b1 коэффициента b1 находят по формуле:

         а) ;

         б) ;    

в) ;

         г) .

 

10. Какая из следующих формул справедлива?

         а) ;      

         б) ;       

в) ;

         г) .

 

К оглавлению

Назад к разделу "5.2. Исходные предпосылки регрессионного анализа "

Вперед к разделу "Выводы"