Мы часто представляем суммы квадратов из регрессионной модели в таблице дисперсионного анализа или анализа вариации (ANOVA, analysis of variance), как показано в Иллюстрации 21.

В этой таблице представлены суммы квадратов, степени свободы, среднеквадратические значения регрессии и ошибки, а также F-статистика. Обратите внимание, что дисперсия зависимой переменной является отношением общей суммы квадратов к \(n - 1\).

Иллюстрация 21. Таблица дисперсионного анализа для простой линейной регрессии.

Источник

Сумма квадратов

Степени свободы

Средние квадраты

F-статистика

Регрессия

SSR = \( \dst \sum^n_{i=1} (\hat Y_i - \overline Y)^2 \)

\(1\)

MSR = \( \dst \sum^n_{i=1} (\hat Y_i - \overline Y)^2 \over 1 \)

F = \( \dst {\rm MSR} \over \dst {\rm MSE} \) = \( \dst
{\dst \sum^n_{i=1} (\hat Y_i - \overline Y)^2 \over 1}
\over
{\dst \sum^n_{i=1} (Y_i - \hat Y_i)^2 \over n-2}
\)

Ошибка

SSE = \( \dst \sum^n_{i=1} (Y_i - \hat Y_i)^2 \)

\(n-2\)

MSE = \( \dst  \sum^n_{i=1} (Y_i - \hat Y_i)^2 \over n-2  \)

Итог

SST = \( \dst \sum^n_{i=1} (Y_i - \overline Y)^2 \)

\(n-1\)

На основе таблицы ANOVA мы также можем рассчитать стандартную ошибку оценки (standard error of the estimate, \(s_e\)), которая также известна как стандартная ошибка регрессии или корень из среднеквадратической ошибки.

\(s_e\) является мерой расстояния между наблюдаемыми значениями зависимой переменной и прогнозируемыми значениями из оценки регрессии; чем меньше \(s_e\), тем лучше подбор (правильность построения) модели.

\(s_e\), наряду с коэффициентом детерминации и F-статистикой, является показателем степени согласия оценочной линии регрессии.

В отличие от коэффициента детерминации и F-статистики, которые являются относительными показателями степени согласия, стандартная ошибка оценки является абсолютным показателем расстояния наблюдаемой зависимой переменной от линии регрессии.

Таким образом, \(s_e\) является важной статистикой, используемой для оценки регрессионной модели, и используется для расчета интервалов прогнозирования и тестирования (проверки гипотез) коэффициентов.

Расчет \(s_e\) прост, когда у вас есть таблица ANOVA, потому что он представляет собой квадратный корень среднеквадратической ошибки MSE (mean square error):

Стандартная ошибка оценки (\(s_e\)) = \( \dst \sqrt{\rm MSE} \) = \( \dst \sqrt{ \sum^n_{i=1} (Y_i - \hat Y_i)^2 \over n-2 } \) (14)

Мы показываем таблицу ANOVA для нашего примера регрессии ROA в Иллюстрации 22, используя информацию из Иллюстрации 20. Для 5% уровня значимости, критическое F-значение для проверки соответствия модели (то есть того, что коэффициент наклона отличается от нуля) составляет 7.71.

Мы можем получить это критическое F-значение следующим образом:

  • Excel [F.INV(0.95,1,4)]
  • R [qf(.95,1,4)]
  • Python [из библиотеки scipy.stats - f.ppf(.95,1,4)]

Получив F-статистику 16.0104 и критическое F-значение 7.71, мы отвергаем нулевую гипотезу и приходим к выводу, что наклон нашей простой линейной регрессии для ROA отличается от нуля.

Иллюстрация 22. Таблица ANOVA для регрессионной модели ROA.

Источник

Сумма квадратов

Степени свободы

Средние квадраты

F-статистика

Регрессия

191.625

1

191.625

16.0104

Ошибка

47.875

4

11.96875

Итог

239.50

5

Расчеты для получения таблицы ANOVA и, в конечном счете, для тестирования степени согласия регрессионной модели, могут занять много времени, особенно для крупных выборок со множеством наблюдений.

Тем не менее, статистические пакеты, такие как SAS, SPSS Statistics и Stata, а также средства программирования, такие как Excel, R и Python, позволяют рассчитать таблицу ANOVA с помощью функций для регрессионного анализа.

Пример 5. Использование результатов таблицы ANOVA для оценки простой линейной регрессии.

Предположим, вы рассчитываете перекрестную регрессию для 100 компаний, где зависимой переменной является годовая доходность акций, а независимая переменная - это доля институциональной собственности акциях (INST).

Результаты этой простой оценки линейной регрессии показаны в Иллюстрации 23. Оцените модель, ответив на представленные ниже вопросы.

Иллюстрация 23. Таблица ANOVA для годовой доходности акций, регрессированная по институциональной собственности.

Источник

Сумма квадратов

Степени свободы

Средние квадраты

Регрессия

576.1485

1

576.1485

Ошибка

1,873.5615

98

19.1180

Итог

2,449.7100

  1. Каков коэффициент детерминации этой регрессионной модели?
  2. Какова стандартная ошибка оценки этой регрессионной модели?
  3. На уровне значимости 5%, отклоняем ли мы нулевую гипотезу о коэффициенте наклона равном нулю, если критическое F-значение составляет 3.938?
  4. Основываясь на ваших ответах на предыдущие вопросы, оцените эту простую линейную модель регрессии.
 


Решение.

  1. Коэффициент детерминации - это сумма квадратов регрессии / общая сумма квадратов:

576.148 / 2,449.71 = 0.2352 или 23.52%.

  1. Стандартной ошибкой оценки является квадратный корень среднеквадратической ошибки:

\( \sqrt{19.1180} \) = 4.3724.

  1. Используя шестиэтапный процесс для проверки гипотез, мы получаем следующее:

Шаг 1

Сформулируйте гипотезы.

\(H_0 : b_1 = 0 \)  против \(H_{\alpha} : b_1 \neq 0 \)

Шаг 2

Определите соответствующий статистический критерий.

\( F = \dst  { {\rm MSR} \over {\rm MSE} } \)

с 1 и 98 степенями свободы.

Шаг 3

Установите уровень значимости.

\(\alpha\) = 5% (один хвост, правая сторона).

Шаг 4

Укажите правило решения.

Критическое F-значение = 3.938.

Отклоните нулевую гипотезу, если рассчитанная F-статистика больше 3.938.

Шаг 5

Рассчитайте статистический критерий.

\( F = { 5761485 \over 19.1180 } = 30.1364 \)

Шаг 6

Примите решение.

Отклоните нулевую гипотезу, потому что рассчитанная F-статистика больше, чем критическое F-значение. Существует достаточно доказательств, чтобы утверждать, что коэффициент наклона отличается от 0.0.

  1. Коэффициент детерминации указывает на то, что изменение в независимой переменной объясняет 23.52% от изменения в зависимой переменной.
    Кроме того, проверка гипотезы об F-статистике подтверждает, что коэффициент наклона модели отличается от 0 на уровне значимости 5%. В целом, модель, по-видимому, достаточно хорошо соответствует данным.