Использование дисперсионного анализа (ANOVA) в регрессионном анализе, интерпретация результатов ANOVA, а также расчет и интерпретация стандартной ошибки оценки в простой линейной регрессии, - в рамках изучения количественных методов по программе CFA (Уровень II).
Мы часто представляем суммы квадратов из регрессионной модели в таблице дисперсионного анализа или анализа вариации (ANOVA, analysis of variance), как показано в Иллюстрации 21.
В этой таблице представлены суммы квадратов, степени свободы, среднеквадратические значения регрессии и ошибки, а также F-статистика. Обратите внимание, что дисперсия зависимой переменной является отношением общей суммы квадратов к \(n - 1\).
| 
			 Источник  | 
			
			 Сумма квадратов  | 
			
			 Степени свободы  | 
			
			 Средние квадраты  | 
			
			 F-статистика  | 
		
|---|---|---|---|---|
| 
			 Регрессия  | 
			
			 SSR = \( \dst \sum^n_{i=1} (\hat Y_i - \overline Y)^2 \)  | 
			
			 \(1\)  | 
			
			 MSR = \( \dst \sum^n_{i=1} (\hat Y_i - \overline Y)^2 \over 1 \)  | 
			
			 F = \( \dst {\rm MSR} \over \dst {\rm MSE} \) = \( \dst  | 
		
| 
			 Ошибка  | 
			
			 SSE = \( \dst \sum^n_{i=1} (Y_i - \hat Y_i)^2 \)  | 
			
			 \(n-2\)  | 
			
			 MSE = \( \dst \sum^n_{i=1} (Y_i - \hat Y_i)^2 \over n-2 \)  | 
			|
| 
			 Итог  | 
			
			 SST = \( \dst \sum^n_{i=1} (Y_i - \overline Y)^2 \)  | 
			
			 \(n-1\)  | 
			
На основе таблицы ANOVA мы также можем рассчитать стандартную ошибку оценки (standard error of the estimate, \(s_e\)), которая также известна как стандартная ошибка регрессии или корень из среднеквадратической ошибки.
\(s_e\) является мерой расстояния между наблюдаемыми значениями зависимой переменной и прогнозируемыми значениями из оценки регрессии; чем меньше \(s_e\), тем лучше подбор (правильность построения) модели.
\(s_e\), наряду с коэффициентом детерминации и F-статистикой, является показателем степени согласия оценочной линии регрессии.
В отличие от коэффициента детерминации и F-статистики, которые являются относительными показателями степени согласия, стандартная ошибка оценки является абсолютным показателем расстояния наблюдаемой зависимой переменной от линии регрессии.
Таким образом, \(s_e\) является важной статистикой, используемой для оценки регрессионной модели, и используется для расчета интервалов прогнозирования и тестирования (проверки гипотез) коэффициентов.
Расчет \(s_e\) прост, когда у вас есть таблица ANOVA, потому что он представляет собой квадратный корень среднеквадратической ошибки MSE (mean square error):
Стандартная ошибка оценки (\(s_e\)) = \( \dst \sqrt{\rm MSE} \) = \( \dst \sqrt{ \sum^n_{i=1} (Y_i - \hat Y_i)^2 \over n-2 } \) (14)
Мы показываем таблицу ANOVA для нашего примера регрессии ROA в Иллюстрации 22, используя информацию из Иллюстрации 20. Для 5% уровня значимости, критическое F-значение для проверки соответствия модели (то есть того, что коэффициент наклона отличается от нуля) составляет 7.71.
Мы можем получить это критическое F-значение следующим образом:
Получив F-статистику 16.0104 и критическое F-значение 7.71, мы отвергаем нулевую гипотезу и приходим к выводу, что наклон нашей простой линейной регрессии для ROA отличается от нуля.
| 
			 Источник  | 
			
			 Сумма квадратов  | 
			
			 Степени свободы  | 
			
			 Средние квадраты  | 
			
			 F-статистика  | 
		
|---|---|---|---|---|
| 
			 Регрессия  | 
			
			 191.625  | 
			
			 1  | 
			
			 191.625  | 
			
			 16.0104  | 
		
| 
			 Ошибка  | 
			
			 47.875  | 
			
			 4  | 
			
			 11.96875  | 
			|
| 
			 Итог  | 
			
			 239.50  | 
			
			 5  | 
			
Расчеты для получения таблицы ANOVA и, в конечном счете, для тестирования степени согласия регрессионной модели, могут занять много времени, особенно для крупных выборок со множеством наблюдений.
Тем не менее, статистические пакеты, такие как SAS, SPSS Statistics и Stata, а также средства программирования, такие как Excel, R и Python, позволяют рассчитать таблицу ANOVA с помощью функций для регрессионного анализа.
Предположим, вы рассчитываете перекрестную регрессию для 100 компаний, где зависимой переменной является годовая доходность акций, а независимая переменная - это доля институциональной собственности акциях (INST).
Результаты этой простой оценки линейной регрессии показаны в Иллюстрации 23. Оцените модель, ответив на представленные ниже вопросы.
| 
			 Источник  | 
			
			 Сумма квадратов  | 
			
			 Степени свободы  | 
			
			 Средние квадраты  | 
		
|---|---|---|---|
| 
			 Регрессия  | 
			
			 576.1485  | 
			
			 1  | 
			
			 576.1485  | 
		
| 
			 Ошибка  | 
			
			 1,873.5615  | 
			
			 98  | 
			
			 19.1180  | 
		
| 
			 Итог  | 
			
			 2,449.7100  | 
			
Решение.
576.148 / 2,449.71 = 0.2352 или 23.52%.
\( \sqrt{19.1180} \) = 4.3724.
| 
			 Шаг 1  | 
			
			 Сформулируйте гипотезы.  | 
			
			 \(H_0 : b_1 = 0 \) против \(H_{\alpha} : b_1 \neq 0 \)  | 
		
| 
			 Шаг 2  | 
			
			 Определите соответствующий статистический критерий.  | 
			
			 \( F = \dst { {\rm MSR} \over {\rm MSE} } \) с 1 и 98 степенями свободы.  | 
		
| 
			 Шаг 3  | 
			
			 Установите уровень значимости.  | 
			
			 \(\alpha\) = 5% (один хвост, правая сторона).  | 
		
| 
			 Шаг 4  | 
			
			 Укажите правило решения.  | 
			
			 Критическое F-значение = 3.938. Отклоните нулевую гипотезу, если рассчитанная F-статистика больше 3.938.  | 
		
| 
			 Шаг 5  | 
			
			 Рассчитайте статистический критерий.  | 
			
			 \( F = { 5761485 \over 19.1180 } = 30.1364 \)  | 
		
| 
			 Шаг 6  | 
			
			 Примите решение.  | 
			
			 Отклоните нулевую гипотезу, потому что рассчитанная F-статистика больше, чем критическое F-значение. Существует достаточно доказательств, чтобы утверждать, что коэффициент наклона отличается от 0.0.  |