Использование дисперсионного анализа (ANOVA) в регрессионном анализе, интерпретация результатов ANOVA, а также расчет и интерпретация стандартной ошибки оценки в простой линейной регрессии, - в рамках изучения количественных методов по программе CFA (Уровень II).
Мы часто представляем суммы квадратов из регрессионной модели в таблице дисперсионного анализа или анализа вариации (ANOVA, analysis of variance), как показано в Иллюстрации 21.
В этой таблице представлены суммы квадратов, степени свободы, среднеквадратические значения регрессии и ошибки, а также F-статистика. Обратите внимание, что дисперсия зависимой переменной является отношением общей суммы квадратов к \(n - 1\).
Источник |
Сумма квадратов |
Степени свободы |
Средние квадраты |
F-статистика |
---|---|---|---|---|
Регрессия |
SSR = \( \dst \sum^n_{i=1} (\hat Y_i - \overline Y)^2 \) |
\(1\) |
MSR = \( \dst \sum^n_{i=1} (\hat Y_i - \overline Y)^2 \over 1 \) |
F = \( \dst {\rm MSR} \over \dst {\rm MSE} \) = \( \dst |
Ошибка |
SSE = \( \dst \sum^n_{i=1} (Y_i - \hat Y_i)^2 \) |
\(n-2\) |
MSE = \( \dst \sum^n_{i=1} (Y_i - \hat Y_i)^2 \over n-2 \) |
|
Итог |
SST = \( \dst \sum^n_{i=1} (Y_i - \overline Y)^2 \) |
\(n-1\) |
На основе таблицы ANOVA мы также можем рассчитать стандартную ошибку оценки (standard error of the estimate, \(s_e\)), которая также известна как стандартная ошибка регрессии или корень из среднеквадратической ошибки.
\(s_e\) является мерой расстояния между наблюдаемыми значениями зависимой переменной и прогнозируемыми значениями из оценки регрессии; чем меньше \(s_e\), тем лучше подбор (правильность построения) модели.
\(s_e\), наряду с коэффициентом детерминации и F-статистикой, является показателем степени согласия оценочной линии регрессии.
В отличие от коэффициента детерминации и F-статистики, которые являются относительными показателями степени согласия, стандартная ошибка оценки является абсолютным показателем расстояния наблюдаемой зависимой переменной от линии регрессии.
Таким образом, \(s_e\) является важной статистикой, используемой для оценки регрессионной модели, и используется для расчета интервалов прогнозирования и тестирования (проверки гипотез) коэффициентов.
Расчет \(s_e\) прост, когда у вас есть таблица ANOVA, потому что он представляет собой квадратный корень среднеквадратической ошибки MSE (mean square error):
Стандартная ошибка оценки (\(s_e\)) = \( \dst \sqrt{\rm MSE} \) = \( \dst \sqrt{ \sum^n_{i=1} (Y_i - \hat Y_i)^2 \over n-2 } \) (14)
Мы показываем таблицу ANOVA для нашего примера регрессии ROA в Иллюстрации 22, используя информацию из Иллюстрации 20. Для 5% уровня значимости, критическое F-значение для проверки соответствия модели (то есть того, что коэффициент наклона отличается от нуля) составляет 7.71.
Мы можем получить это критическое F-значение следующим образом:
Получив F-статистику 16.0104 и критическое F-значение 7.71, мы отвергаем нулевую гипотезу и приходим к выводу, что наклон нашей простой линейной регрессии для ROA отличается от нуля.
Источник |
Сумма квадратов |
Степени свободы |
Средние квадраты |
F-статистика |
---|---|---|---|---|
Регрессия |
191.625 |
1 |
191.625 |
16.0104 |
Ошибка |
47.875 |
4 |
11.96875 |
|
Итог |
239.50 |
5 |
Расчеты для получения таблицы ANOVA и, в конечном счете, для тестирования степени согласия регрессионной модели, могут занять много времени, особенно для крупных выборок со множеством наблюдений.
Тем не менее, статистические пакеты, такие как SAS, SPSS Statistics и Stata, а также средства программирования, такие как Excel, R и Python, позволяют рассчитать таблицу ANOVA с помощью функций для регрессионного анализа.
Предположим, вы рассчитываете перекрестную регрессию для 100 компаний, где зависимой переменной является годовая доходность акций, а независимая переменная - это доля институциональной собственности акциях (INST).
Результаты этой простой оценки линейной регрессии показаны в Иллюстрации 23. Оцените модель, ответив на представленные ниже вопросы.
Источник |
Сумма квадратов |
Степени свободы |
Средние квадраты |
---|---|---|---|
Регрессия |
576.1485 |
1 |
576.1485 |
Ошибка |
1,873.5615 |
98 |
19.1180 |
Итог |
2,449.7100 |
Решение.
576.148 / 2,449.71 = 0.2352 или 23.52%.
\( \sqrt{19.1180} \) = 4.3724.
Шаг 1 |
Сформулируйте гипотезы. |
\(H_0 : b_1 = 0 \) против \(H_{\alpha} : b_1 \neq 0 \) |
Шаг 2 |
Определите соответствующий статистический критерий. |
\( F = \dst { {\rm MSR} \over {\rm MSE} } \) с 1 и 98 степенями свободы. |
Шаг 3 |
Установите уровень значимости. |
\(\alpha\) = 5% (один хвост, правая сторона). |
Шаг 4 |
Укажите правило решения. |
Критическое F-значение = 3.938. Отклоните нулевую гипотезу, если рассчитанная F-статистика больше 3.938. |
Шаг 5 |
Рассчитайте статистический критерий. |
\( F = { 5761485 \over 19.1180 } = 30.1364 \) |
Шаг 6 |
Примите решение. |
Отклоните нулевую гипотезу, потому что рассчитанная F-статистика больше, чем критическое F-значение. Существует достаточно доказательств, чтобы утверждать, что коэффициент наклона отличается от 0.0. |