CFA - ANOVA и стандартная ошибка оценки в простой линейной регрессии

Использование дисперсионного анализа (ANOVA) в регрессионном анализе, интерпретация результатов ANOVA, а также расчет и интерпретация стандартной ошибки оценки в простой линейной регрессии, - в рамках изучения количественных методов по программе CFA (Уровень II).

Мы часто представляем суммы квадратов из регрессионной модели в таблице дисперсионного анализа или анализа вариации (ANOVA, analysis of variance), как показано в Иллюстрации 21.

В этой таблице представлены суммы квадратов, степени свободы, среднеквадратические значения регрессии и ошибки, а также F-статистика. Обратите внимание, что дисперсия зависимой переменной является отношением общей суммы квадратов к \(n - 1\).

Иллюстрация 21. Таблица дисперсионного анализа для простой линейной регрессии.

Источник	Сумма квадратов	Степени свободы	Средние квадраты	F-статистика
Регрессия	SSR = \( \dst \sum^n_{i=1} (\hat Y_i - \overline Y)^2 \)	\(1\)	MSR = \( \dst \sum^n_{i=1} (\hat Y_i - \overline Y)^2 \over 1 \)	F = \( \dst {\rm MSR} \over \dst {\rm MSE} \) = \( \dst {\dst \sum^n_{i=1} (\hat Y_i - \overline Y)^2 \over 1} \over {\dst \sum^n_{i=1} (Y_i - \hat Y_i)^2 \over n-2} \)
Ошибка	SSE = \( \dst \sum^n_{i=1} (Y_i - \hat Y_i)^2 \)	\(n-2\)	MSE = \( \dst \sum^n_{i=1} (Y_i - \hat Y_i)^2 \over n-2 \)
Итог	SST = \( \dst \sum^n_{i=1} (Y_i - \overline Y)^2 \)	\(n-1\)

На основе таблицы ANOVA мы также можем рассчитать стандартную ошибку оценки (standard error of the estimate, \(s_e\)), которая также известна как стандартная ошибка регрессии или корень из среднеквадратической ошибки.

\(s_e\) является мерой расстояния между наблюдаемыми значениями зависимой переменной и прогнозируемыми значениями из оценки регрессии; чем меньше \(s_e\), тем лучше подбор (правильность построения) модели.

\(s_e\), наряду с коэффициентом детерминации и F-статистикой, является показателем степени согласия оценочной линии регрессии.

В отличие от коэффициента детерминации и F-статистики, которые являются относительными показателями степени согласия, стандартная ошибка оценки является абсолютным показателем расстояния наблюдаемой зависимой переменной от линии регрессии.

Таким образом, \(s_e\) является важной статистикой, используемой для оценки регрессионной модели, и используется для расчета интервалов прогнозирования и тестирования (проверки гипотез) коэффициентов.

Расчет \(s_e\) прост, когда у вас есть таблица ANOVA, потому что он представляет собой квадратный корень среднеквадратической ошибки MSE (mean square error):

Стандартная ошибка оценки (\(s_e\)) = \( \dst \sqrt{\rm MSE} \) = \( \dst \sqrt{ \sum^n_{i=1} (Y_i - \hat Y_i)^2 \over n-2 } \) (14)

Мы показываем таблицу ANOVA для нашего примера регрессии ROA в Иллюстрации 22, используя информацию из Иллюстрации 20. Для 5% уровня значимости, критическое F-значение для проверки соответствия модели (то есть того, что коэффициент наклона отличается от нуля) составляет 7.71.

Мы можем получить это критическое F-значение следующим образом:

Excel [F.INV(0.95,1,4)]
R [qf(.95,1,4)]
Python [из библиотеки scipy.stats - f.ppf(.95,1,4)]

Получив F-статистику 16.0104 и критическое F-значение 7.71, мы отвергаем нулевую гипотезу и приходим к выводу, что наклон нашей простой линейной регрессии для ROA отличается от нуля.

Иллюстрация 22. Таблица ANOVA для регрессионной модели ROA.

Источник	Сумма квадратов	Степени свободы	Средние квадраты	F-статистика
Регрессия	191.625	1	191.625	16.0104
Ошибка	47.875	4	11.96875
Итог	239.50	5

Расчеты для получения таблицы ANOVA и, в конечном счете, для тестирования степени согласия регрессионной модели, могут занять много времени, особенно для крупных выборок со множеством наблюдений.

Тем не менее, статистические пакеты, такие как SAS, SPSS Statistics и Stata, а также средства программирования, такие как Excel, R и Python, позволяют рассчитать таблицу ANOVA с помощью функций для регрессионного анализа.

Пример 5. Использование результатов таблицы ANOVA для оценки простой линейной регрессии.

Предположим, вы рассчитываете перекрестную регрессию для 100 компаний, где зависимой переменной является годовая доходность акций, а независимая переменная - это доля институциональной собственности акциях (INST).

Результаты этой простой оценки линейной регрессии показаны в Иллюстрации 23. Оцените модель, ответив на представленные ниже вопросы.

Иллюстрация 23. Таблица ANOVA для годовой доходности акций, регрессированная по институциональной собственности.

Источник	Сумма квадратов	Степени свободы	Средние квадраты
Регрессия	576.1485	1	576.1485
Ошибка	1,873.5615	98	19.1180
Итог	2,449.7100

Каков коэффициент детерминации этой регрессионной модели?
Какова стандартная ошибка оценки этой регрессионной модели?
На уровне значимости 5%, отклоняем ли мы нулевую гипотезу о коэффициенте наклона равном нулю, если критическое F-значение составляет 3.938?
Основываясь на ваших ответах на предыдущие вопросы, оцените эту простую линейную модель регрессии.

Решение.

Коэффициент детерминации - это сумма квадратов регрессии / общая сумма квадратов:

576.148 / 2,449.71 = 0.2352 или 23.52%.

Стандартной ошибкой оценки является квадратный корень среднеквадратической ошибки:

\( \sqrt{19.1180} \) = 4.3724.

Используя шестиэтапный процесс для проверки гипотез, мы получаем следующее:

Шаг 1	Сформулируйте гипотезы.	\(H_0 : b_1 = 0 \) против \(H_{\alpha} : b_1 \neq 0 \)
Шаг 2	Определите соответствующий статистический критерий.	\( F = \dst { {\rm MSR} \over {\rm MSE} } \) с 1 и 98 степенями свободы.
Шаг 3	Установите уровень значимости.	\(\alpha\) = 5% (один хвост, правая сторона).
Шаг 4	Укажите правило решения.	Критическое F-значение = 3.938. Отклоните нулевую гипотезу, если рассчитанная F-статистика больше 3.938.
Шаг 5	Рассчитайте статистический критерий.	\( F = { 5761485 \over 19.1180 } = 30.1364 \)
Шаг 6	Примите решение.	Отклоните нулевую гипотезу, потому что рассчитанная F-статистика больше, чем критическое F-значение. Существует достаточно доказательств, чтобы утверждать, что коэффициент наклона отличается от 0.0.

Коэффициент детерминации указывает на то, что изменение в независимой переменной объясняет 23.52% от изменения в зависимой переменной.
Кроме того, проверка гипотезы об F-статистике подтверждает, что коэффициент наклона модели отличается от 0 на уровне значимости 5%. В целом, модель, по-видимому, достаточно хорошо соответствует данным.

ведение в линейную регрессию

количественные методы

программа CFA

CFA - Уровень 2

CFA - ANOVA и стандартная ошибка оценки в простой линейной регрессии

Иллюстрация 21. Таблица дисперсионного анализа для простой линейной регрессии.

Иллюстрация 22. Таблица ANOVA для регрессионной модели ROA.

Пример 5. Использование результатов таблицы ANOVA для оценки простой линейной регрессии.

Иллюстрация 23. Таблица ANOVA для годовой доходности акций, регрессированная по институциональной собственности.

Анализ CFA - Интерпретация коэффициентов регрессии

Анализ CFA - Расчет параметров простой линейной регрессии

Анализ CFA - Допущения простой линейной регрессии

Анализ CFA - Прогнозирование с использованием простой линейной регрессии