Использование дисперсионного анализа (ANOVA) в регрессионном анализе, интерпретация результатов ANOVA, а также расчет и интерпретация стандартной ошибки оценки в простой линейной регрессии, - в рамках изучения количественных методов по программе CFA (Уровень II).
Мы часто представляем суммы квадратов из регрессионной модели в таблице дисперсионного анализа или анализа вариации (ANOVA, analysis of variance), как показано в Иллюстрации 21.
В этой таблице представлены суммы квадратов, степени свободы, среднеквадратические значения регрессии и ошибки, а также F-статистика. Обратите внимание, что дисперсия зависимой переменной является отношением общей суммы квадратов к \(n - 1\).
| Источник | Сумма квадратов | Степени свободы | Средние квадраты | F-статистика | 
|---|---|---|---|---|
| Регрессия | SSR = \( \dst \sum^n_{i=1} (\hat Y_i - \overline Y)^2 \) | \(1\) | MSR = \( \dst \sum^n_{i=1} (\hat Y_i - \overline Y)^2 \over 1 \) | F = \( \dst {\rm MSR} \over \dst {\rm MSE} \) = \( \dst | 
| Ошибка | SSE = \( \dst \sum^n_{i=1} (Y_i - \hat Y_i)^2 \) | \(n-2\) | MSE = \( \dst \sum^n_{i=1} (Y_i - \hat Y_i)^2 \over n-2 \) | |
| Итог | SST = \( \dst \sum^n_{i=1} (Y_i - \overline Y)^2 \) | \(n-1\) | 
На основе таблицы ANOVA мы также можем рассчитать стандартную ошибку оценки (standard error of the estimate, \(s_e\)), которая также известна как стандартная ошибка регрессии или корень из среднеквадратической ошибки.
\(s_e\) является мерой расстояния между наблюдаемыми значениями зависимой переменной и прогнозируемыми значениями из оценки регрессии; чем меньше \(s_e\), тем лучше подбор (правильность построения) модели.
\(s_e\), наряду с коэффициентом детерминации и F-статистикой, является показателем степени согласия оценочной линии регрессии.
В отличие от коэффициента детерминации и F-статистики, которые являются относительными показателями степени согласия, стандартная ошибка оценки является абсолютным показателем расстояния наблюдаемой зависимой переменной от линии регрессии.
Таким образом, \(s_e\) является важной статистикой, используемой для оценки регрессионной модели, и используется для расчета интервалов прогнозирования и тестирования (проверки гипотез) коэффициентов.
Расчет \(s_e\) прост, когда у вас есть таблица ANOVA, потому что он представляет собой квадратный корень среднеквадратической ошибки MSE (mean square error):
Стандартная ошибка оценки (\(s_e\)) = \( \dst \sqrt{\rm MSE} \) = \( \dst \sqrt{ \sum^n_{i=1} (Y_i - \hat Y_i)^2 \over n-2 } \) (14)
Мы показываем таблицу ANOVA для нашего примера регрессии ROA в Иллюстрации 22, используя информацию из Иллюстрации 20. Для 5% уровня значимости, критическое F-значение для проверки соответствия модели (то есть того, что коэффициент наклона отличается от нуля) составляет 7.71.
Мы можем получить это критическое F-значение следующим образом:
Получив F-статистику 16.0104 и критическое F-значение 7.71, мы отвергаем нулевую гипотезу и приходим к выводу, что наклон нашей простой линейной регрессии для ROA отличается от нуля.
| Источник | Сумма квадратов | Степени свободы | Средние квадраты | F-статистика | 
|---|---|---|---|---|
| Регрессия | 191.625 | 1 | 191.625 | 16.0104 | 
| Ошибка | 47.875 | 4 | 11.96875 | |
| Итог | 239.50 | 5 | 
Расчеты для получения таблицы ANOVA и, в конечном счете, для тестирования степени согласия регрессионной модели, могут занять много времени, особенно для крупных выборок со множеством наблюдений.
Тем не менее, статистические пакеты, такие как SAS, SPSS Statistics и Stata, а также средства программирования, такие как Excel, R и Python, позволяют рассчитать таблицу ANOVA с помощью функций для регрессионного анализа.
Предположим, вы рассчитываете перекрестную регрессию для 100 компаний, где зависимой переменной является годовая доходность акций, а независимая переменная - это доля институциональной собственности акциях (INST).
Результаты этой простой оценки линейной регрессии показаны в Иллюстрации 23. Оцените модель, ответив на представленные ниже вопросы.
| Источник | Сумма квадратов | Степени свободы | Средние квадраты | 
|---|---|---|---|
| Регрессия | 576.1485 | 1 | 576.1485 | 
| Ошибка | 1,873.5615 | 98 | 19.1180 | 
| Итог | 2,449.7100 | 
Решение.
576.148 / 2,449.71 = 0.2352 или 23.52%.
\( \sqrt{19.1180} \) = 4.3724.
| Шаг 1 | Сформулируйте гипотезы. | \(H_0 : b_1 = 0 \) против \(H_{\alpha} : b_1 \neq 0 \) | 
| Шаг 2 | Определите соответствующий статистический критерий. | \( F = \dst { {\rm MSR} \over {\rm MSE} } \) с 1 и 98 степенями свободы. | 
| Шаг 3 | Установите уровень значимости. | \(\alpha\) = 5% (один хвост, правая сторона). | 
| Шаг 4 | Укажите правило решения. | Критическое F-значение = 3.938. Отклоните нулевую гипотезу, если рассчитанная F-статистика больше 3.938. | 
| Шаг 5 | Рассчитайте статистический критерий. | \( F = { 5761485 \over 19.1180 } = 30.1364 \) | 
| Шаг 6 | Примите решение. | Отклоните нулевую гипотезу, потому что рассчитанная F-статистика больше, чем критическое F-значение. Существует достаточно доказательств, чтобы утверждать, что коэффициент наклона отличается от 0.0. |