Рассмотрим разложение общей суммы квадратов регрессионной модели на компоненты, а также расчет и интерпретацию коэффициента детерминации, F-статистику и стандартную ошибку простой линейной регрессии, - в рамках изучения количественных методов по программе CFA (Уровень II).
Модель простой линейной регрессии иногда довольно хорошо описывает зависимость между двумя переменными, но иногда это не так.
Финансовые аналитики должны различать эти два случая для эффективного использования регрессионного анализа.
Помните, что наша цель - объяснить изменение зависимой переменной. Итак, насколько хорошо мы достигли этой цели, учитывая наш выбор независимой переменной?
Мы начинаем с получения общей или полной суммы квадратов (SST, sum of squares total), а затем раскладываем ее на две части: сумму квадратов ошибки или остатков (SSE, sum of squares error) и сумму квадратов регрессии.
Сумма квадратов регрессии или объясненная сумма квадратов (SSR, sum of squares regression) - это сумма квадратов разностей между прогнозируемым значением зависимой переменной
Мы уже определили общую сумму квадратов, которая представляет собой общую вариацию (дисперсию) в
Обратите внимание, что сумма квадратов регрессии - это объясненная вариация в
Таким образом, как показано в Иллюстрации 19, SST = SSR + SSE, что означает, что общая вариация в
Разложение вариации (дисперсии) зависимой переменной.
Мы покажем разложение формулы общей суммы на примере регрессии ROA, представленной в Иллюстрации 20. Общая вариация ROA, которую мы хотим объяснить (SST), составляет 239.50.
Это число включает в себя необъясненную вариацию (SSE), 47.88, а также объясненную вариацию (SSR), 191.63. Эти суммы квадратов являются важными исходными данными для анализа правильности построения регрессии.
Далее мы рассмотрим показатели, с помощью которых проводится оценивается соответствие построенной регрессии исходным данным.
Компания |
ROA |
CAPEX |
Прогнозируемая ROA |
Вариация, которую нужно объяснить |
Необъясненная вариация |
Объясненная вариация |
A |
6.0 |
0.7 |
5.750 |
42.25 |
0.063 |
45.563 |
B |
4.0 |
0.4 |
5.375 |
72.25 |
1.891 |
50.766 |
C |
15.0 |
5.0 |
11.125 |
6.25 |
15.016 |
1.891 |
D |
20.0 |
10.0 |
17.375 |
56.25 |
6.891 |
23.766 |
E |
10.0 |
8.0 |
14.875 |
6.25 |
23.766 |
5.641 |
F |
20.0 |
12.5 |
20.500 |
56.25 |
0.250 |
64.000 |
239.50 |
47.88 |
191.625 |
||||
Среднее значение |
12.50 |
Есть несколько показателей, которые мы можем использовать для оценки степени согласия (goodness of fit), то есть того, насколько хорошо регрессионная модель подходит к исходным данным.
К этим показателям относятся коэффициент детерминации, F-статистика для проверки соответствия регрессионной модели и стандартная ошибка регрессии.
Коэффициент детерминации (coefficient of determination), который также называют R-квадратом или
Значение коэффициента детерминации колеблется от 0% до 100%.
В нашем примере с ROA коэффициент детерминации составляет 191.625 + 239.50, или 0.8001 (80.01%). Поэтому 80.01% является вариацией ROA, объясненной CAPEX.
В простой линейной регрессии квадрат парной корреляции равен коэффициенту детерминации:
В нашем анализе регрессии ROA, который мы провели ранее,
Коэффициент детерминации - это часть вариации (дисперсии) зависимой переменной, объясненной независимой переменной. Учитывая, что он является описательным показателем, он не является статистическим критерием.
Чтобы выяснить, может ли наша регрессионная модель быть статистически значимой, нам нужно построить F-статистику.
В целом, мы используем F-распределенную статистику для сравнения двух вариаций (дисперсий).
В регрессионном анализе мы можем использовать F-распределенную статистику, чтобы проверить (нулевую) гипотезу о том, равны ли коэффициенты наклона регрессии нулю. Эти наклоны обозначаются как
Альтернативная гипотеза заключается в том, что, по крайней мере, один наклон не равен нулю:
Для простой линейной регрессии эти гипотезы упрощаются до вида:
F-распределенная статистика строится с использованием суммы квадратов регрессии и суммы квадратов ошибки, каждая из которых корректируется с учетом степеней свободы. Другими словами, это отношение двух дисперсий.
Мы делим сумму квадратов регрессии на количество независимых переменных, представленных
Итак, для простой линейной регрессии,
Затем мы рассчитываем среднеквадратическую ошибку (MSE, mean square error), которая представляет собой сумму квадратов ошибки, деленную на степени свободы, которые составляют
В простой линейной регрессии выражение
Следовательно, F-распределенная статистика (MSR/MSE) равна:
которая распределяется с
F-статистика в регрессионном анализе односторонняя, с областью отклонения гипотезы с правой стороны, поскольку нас интересует, является ли вариация в объясненной переменной