CFA - Проверка гипотез о коэффициентах линейной регрессии: уровень значимости и p-значения

Рассмотрим особенности выбора уровня значимости и опредеделения p-значений, а также ошибки I и II рода при проверке гипотез о коэффициентах линейной регрессии, - в рамках изучения количественных методов по программе CFA (Уровень II).

Выбор уровня значимости при проверке статистических гипотез всегда является вопросом суждения.

Аналитики часто выбирают уровень значимости 0.05, который указывает на 5% вероятность отклонения нулевой гипотезы, когда она, на самом деле, является истинной (ошибка I рода или ложноположительное заключение).

Конечно, снижение уровня значимости с 0.05 до 0.01 уменьшает вероятность ошибки I рода, но также увеличивает вероятность ошибки II рода - ошибочного отказа от отклонения нулевой гипотезы, когда, на самом деле, она ложна (то есть ложноотрицательное заключение).

P-значение является наименьшим уровнем значимости, при котором может быть отвергнута нулевая гипотеза. Чем меньше p-значение, тем меньше вероятность совершить ошибку I рода (то есть отклонить истинную нулевую гипотезу), поэтому тем больше вероятность того, что модель регрессии корректна.

Например, если p-значение равно 0.005, мы отклоняем нулевую гипотезу о том, что истинный параметр равен нулю на уровне значимости 0.5% (99.5% уверенность).

В большинстве программных пакетов p-значения, предусмотренные для расчета коэффициентов регрессии, предназначены для проверки нулевой гипотезы о том, что истинный параметр равен нулю в противоположность альтернативной гипотезе о том, что параметр не равен нулю.

В нашем примере регрессии ROA t-статистика, рассчитанная для проверки того, равен ли коэффициент наклона нулю, составляет 4.00131. P-значение, соответствующее этому статистическому критерию, составляет 0,008. Это означает, что есть только 0.8% вероятность отклонения нулевых гипотез, когда они истинны.

Сравнение этого p-значения с уровнем значимости 5% (и критическими значениями ±2.776) приводит нас к простому выводу об отклонении нулевой гипотезы \( H_0 : b_1 = 0 \).

Как мы определяем p-значения?

Поскольку это область в распределении за пределами рассчитанного статистического критерия, нам нужно прибегнуть к программным инструментам.

Для p-значения, соответствующего \(t = 4.00131\) из примера регрессии ROA, мы могли бы использовать следующее:

Excel: 1-T.DIST(4.00131,4,TRUE))*2
R: (1-pt(4.00131,4))*2
Python: библиотека scipy.stats - import t и (1 - t.cdf(4.00131,4))*2

Пример 6. Проверка гипотез о результатах простой линейной регрессии.

Аналитик заинтересован в интерпретации результатов и выполнении проверки гипотез для оценки рыночной модели, которая регрессирует ежедневную доходность акций компании ABC по ежедневной доходности фиктивного индекса акций европейского, азиатского и африканского рынков (EAA).

Полученные результаты регрессии представлены в Иллюстрации 30.

Иллюстрация 30. Выдержка из результатов оценки рыночной модели для акций ABC.

Стандартная ошибка оценки (\(s_e\))	1.26
Стандартное отклонение доходности акций ABC	0.80
Стандартное отклонение индекса акций EAA	0.70
Количество наблюдений	1,200
	Коэффициенты
Точка пересечения	0.010
Наклон доходности индекса акций EAA	0.982

Если критические t-значения составляют ±1.96 (на уровне значимости 5%), отличается ли коэффициент наклона от нуля?
Если критические t-значения составляют ± 1/96 (на уровне значимости 5%), отличается ли коэффициент наклона от 1.0?

Решения:

1. Во-первых, мы рассчитываем изменение независимой переменной, используя стандартное отклонение независимой переменной:

\(
\dst \sum^n_{i=1} (X_i - \overline X)^2 =
\dst { \sum^n_{i=1} (X_i - \overline X)^2 \over n-1 }
\times (n-1)
\)

Поэтому,

\(
\dst \sum^n_{i=1} (X_i - \overline X)^2 =
0.70^2 \times 1.199 = 587.51
\)

Далее, стандартная ошибка оценочного коэффициента наклона составляет:

\( s_{\hat b_1} = \dst { s_e \over
\sqrt{ \dst \sum^n_{i=1} (X_i - \overline X)^2 } }=
\dst {1.26 \over \sqrt{587.51}} = 0.051983
\),

а статистический критерий равен:

\( t = \dst { \hat b_1 - B_1 \over s_{\hat b_1} } =
{0.982 - 0 \over 0.051983} = 18.89079
\)

Рассчитанный статистический критерий находится за пределами ±1.96, поэтому мы отклоняем нулевую гипотезу о коэффициенте наклона, равном нулю.

2. Рассчитанный статистический критерий для проверки того, равен ли коэффициент наклона 1.0, составляет:

\( t = \dst {0.982 - 1 \over 0.051983} = -0.3463 \).

Рассчитанный статистический критерий находится в пределах ±1.96, поэтому мы не можем отклонить нулевую гипотезу о коэффициенте наклона, равном 1.0, что свидетельствует о том, что наклон истинной совокупности может быть равен 1.0.

ведение в линейную регрессию

количественные методы

программа CFA

CFA - Уровень 2

CFA - Проверка гипотез о коэффициентах линейной регрессии: уровень значимости и p-значения

Пример 6. Проверка гипотез о результатах простой линейной регрессии.

Иллюстрация 30. Выдержка из результатов оценки рыночной модели для акций ABC.

Анализ CFA - Функциональные формы простой линейной регрессии

Анализ CFA - Простая линейная регрессия

Анализ CFA - Анализ вариации простой линейной регрессии

Анализ CFA - Интерпретация коэффициентов регрессии